優化大型表上的SQL連接

我正在PostgreSQL數據庫上運行一個大型表（每天700萬新行）的sql查詢集合，並且已經遇到了第一個視圖和現在創建表的一些性能問題。大多數我使用的命令類似於下面的查詢：優化大型表上的SQL連接

CREATE TABLE events_tb AS 

SELECT * 

FROM 
(SELECT column1, column2, column3, column4, column5 
FROM test_database_1 
WHERE column6 = 'value1' 
    AND date_column > '2012-07-01' 
    AND date_column < '2012-07-10' 
) a 

INNER JOIN (SELECT DISTINCT column1 FROM test_database_2) b 
     ON (a.column1 = b.column1);

是否有提高報表上述集合佔的事實，查詢正在對非常大的表運行的方法嗎？

來源

2012-07-10 user7980

請向我們展示執行計劃。最好像'explain analyze'上傳到http://explain.depesz.com/ – 2012-07-10 21:55:24

您提到一個「語句集合」，但我只看到一個查詢？ – 2012-07-10 23:06:43

這應該是簡單，更快捷：

CREATE TABLE events_tb AS 
SELECT column1, column2, column3, column4, column5 
FROM test_database_1 t1 
WHERE column6 = 'value1' 
AND date_column > '2012-07-01' 
AND date_column < '2012-07-10' 
AND EXISTS (
    SELECT 1 
    FROM test_database_2 t2 
    WHERE t2.column1 = t1.column1 
    );

你有它會的方式在新創建的表中包含column1兩次，這會導致錯誤消息。

一個EXISTS semi-join應該比JOIN或IN表達更快，因爲它可以在第一次發現停止執行。這對複製品尤其有益 - 從您的查詢中的DISTINCT來看，您似乎擁有這些複製品。

來源

2012-07-10 23:19:21

我什麼都不知道PostgreSQL的優化器，但你可以嘗試用IN (SELECT...)結構替換INNER JOIN：

CREATE TABLE events_tb AS 

SELECT column1, column2, column3, column4, column5 

FROM test_database_1 

WHERE column6 = 'value1' 
    AND date_column > '2012-07-01' 
    AND date_column < '2012-07-10' 
    AND column1 IN (SELECT DISTINCT column1 FROM test_database_2)

來源

2012-07-10 21:57:16 biziclop

既然你把它移到了'IN'，'distinct'就不再需要了。這可能會改善或惡化perf，具體取決於數據是什麼樣的。 – 2012-07-10 22:00:30

或者如果PG有一些大腦，它會簡單地忽略它。 – biziclop 2012-07-10 22:03:05

'date_column'和'column6'有索引嗎？ – 2012-07-10 22:57:29

優化大型表上的SQL連接

回答

相關問題