0

我正在從一個發電機數據庫表中將大量數據(1億條以上)複製到Redshift,我需要根據一些標準過濾數據。我已經評估了幾種方法達到這一任務:Redshift COPY命令vs AWS datapipeline RedshiftCopyActivity

  1. 使用紅移COPY命令:http://docs.aws.amazon.com/amazondynamodb/latest/developerguide/RedshiftforDynamoDB.htmlhttp://docs.aws.amazon.com/redshift/latest/dg/t_Loading-data-from-dynamodb.html)。 這種方法的缺點: COPY命令會影響源動態數據庫表的吞吐量,因此不建議將其用於生產DDB表。 (讀取比率調整消耗的源動態數據表表的百分比,建議將此比率設置爲小於源表的平均未使用預置吞吐量的值)。

  2. 使用AWS Datapipeline : 僅使用RedshiftCopyActivity :(http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-redshiftcopyactivity.html)將數據直接從Dynamo數據庫複製到紅移,然後在紅移上運行查詢以根據條件進行過濾。

我找不到是否源發電機db表的吞吐量將同時使用RedshiftCopyActivity以及影響的任何信息。有人可以提供相同的信息嗎?

另外,如果將數據從dynamoDB複製到S3,然後從S3複製到Redshift比直接從發電機DB複製到Redshift更有用嗎?

回答

0

儘量減少接觸迪納摩。通常我會說,將它用於除鍵值存儲以外的其他任何內容都是不好的主意。任何邏輯都應該發生在Redshift中。