在Hadoop中如何每天處理不斷增長的數據:Hadoop中如何處理日益增多的數據
例如:
第一天我可能有一些輸入文件夾1個百萬個文件(如Hadoop的/演示)
第2天在同一個文件夾中,文件可以從現有的1個百萬個文件+另一個新的1個百萬個文件增大,從而達2萬元。
同樣第3天和第4天......不斷去。
我的約束是 - >第1天的文件不應該在第二天處理。
(即)當新文件與它們一起添加時,已處理的文件不應該再次處理。更具體地說,只有新增的文件應該被處理,舊的文件應該被忽略。
所以幫我解決這個問題。
如果您不明白約束條件,請說明不清楚的地方,以便我可以詳細說明我的約束條件!
正如David所言,Oozie非常適合這類問題,並將幫助您跟蹤哪些日子無法處理 – 2012-03-22 21:10:30