多線程插入到Redshift表導致鎖

我有一個Java應用程序，從一組表中讀取，處理數據，然後將處理的數據插入到一個表中。數據量真的很大，多線程是不可避免的。當多個線程嘗試同時插入時會發生問題，這會導致寫入保持和插入保持。之後，所有線程等待表可用，直到連接超時。插入多線程插入到Redshift表導致鎖

的記錄沒有任何外鍵指向插入
記錄的所有表都完全相互獨立的
該表中沒有的增量ID任何一種
沒有其他應用程序正在使用的任何本申請中涉及的表

我正在使用Java準備語句來執行插入操作。每個調用一個插入方法，分別爲每個線程打開一個連接。

有什麼我做錯了，或者它是與Redshift的兼容性問題？

來源

2017-02-14 Med Zamrik

您使用連接池嗎？爭論可能是因爲我認爲數據倉庫產品能夠處理上面概述的情況（儘管我對Redshift沒有特別的瞭解） – DaveH

根據文檔：COPY和INSERT操作是純粹的寫入...針對同一個表的COPY和INSERT操作保持等待狀態，直到釋放鎖，然後它們照常進行。請參閱http://docs.aws.amazon.com/es_es/redshift/latest/ dg/c_write_readwrite.html –

但基於此，這意味着線程進入隊列以執行插入操作。但是非線程正在插入。 –

將大量的小插入到單個連接的Redshift表格中肯定是not what you want to do。 Redshift WLM query queues不適合許多小型併發操作。默認情況下，只有5個查詢將同時運行，並且您希望將這些查詢保存爲實際的工作查詢，而不是loading。當您認爲Redshift針對超大型數據集上的少量長時間運行查詢進行了優化時，這是有意義的。

對於你的情況，我建議你看看使用Kinesis Firehose到load your data into Redshift。它專門爲此目的而設計，您可以從多個線程高效寫入。它會batch the data for you，可以給你一個機會，如果需要過濾/轉換數據，並有副作用備份到S3如果需要的話。

這是Java example。

來源

2017-02-16 19:00:20 systemjack

我似乎無法找到一種方法來通過java來做到這一點。因爲複製命令依賴於文件，所以請按照這裏的文檔[鏈接]（http://docs.aws.amazon.com/redshift/latest/dg/r_COPY。html） –

如果你想直接從S3加載文件而不是像上面最後一個鏈接那樣使用Kinesis，Java不需要知道S3，它只需要在Redshift上運行的COPY命令中指定S3路徑。 Redshift將使用COPY中提供的憑據從S3本身獲取文件。下面是一個示例COPY命令：'COPY your_table FROM's3：//your_bucket/path/file.csv.gz'CREDENTIALS'aws_access_key_id = yourkey; aws_secret_access_key = yoursecret'DELIMITER'，'NULL'NULL'IGNOREBLANKLINES EMPTYASNULL BLANKSASNULL TIMEFORMAT'auto' FILLRECORD MAXERROR 1 CSV GZIP'。 – systemjack

不，我的意思是沒有辦法使用copy命令直接從Java插入，而不必從文件中插入。 –

多線程插入到Redshift表導致鎖

回答

相關問題