2015-09-28 87 views
1

我有一個數據管道每小時運行一次,運行HiveCopyActivity從DynamoDB中選擇過去一小時的數據到S3。我從中選擇的表格有一個散列鍵VisitorID和範圍鍵Timestamp,大約有400萬行,大小爲7.5GB。爲了減少工作所需的時間,我在Timestamp上創建了一個全局二級索引,但在監控Cloudwatch之後,似乎HiveCopyActivity不使用索引。我已閱讀了所有相關的AWS文檔,但找不到任何索引。AWS Data Pipeline不使用DynamoDB的索引

有沒有辦法強制數據管道使用索引,而這樣的過濾?如果沒有,是否有其他可以將DynamoDB的每小時(或任何其他時間)數據傳輸到S3的應用程序?

回答

0

不幸的是,DynamoDB EMR Hive適配器目前不支持使用索引。您需要編寫自己的掃描儀掃描索引並將其輸出到S3 - 您可以查看https://github.com/awslabs/dynamodb-import-export-tool瞭解實施導入/導出管道的一些基本知識。該庫本質上是一個用於掃描DDB表的並行掃描框架。