2012-07-24 168 views
0

我有一個應用程序每天或每小時或者隨機地向S3寫入數據,另一個應用程序將數據從S3讀取到本地HBase。有沒有什麼辦法可以告訴最後一次更新上傳的文件是什麼,然後再讀取文件,換句話說,增量複製文件?將文件從S3增量複製到本地hdfs

例如: 第1天:App1將文件1,2,3寫入文件夾1; App2將這3個文件讀取到HBase; 第4天:App1寫入文件4 & 5至文件夾1,6,7,8至文件夾2; APP2需要從文件夾中讀出從文件夾1 4 & 5,然後6,7,8 2.

感謝

回答

0

上次更改報頭字段可以被用來處理根據創建日期數據。這需要客戶端的內置邏輯來存儲已處理的項目和新項目。您可以簡單地存儲您處理的日期,以便將所有內容都視爲新的。

實施例:

s3cmd ls s3://test 
2012-07-24 18:29 36303234 s3://test/dl.pdf 

查看在該文件的前面的日期。

相關問題