2012-02-10 56 views
0

在Hadoop中如何每天處理不斷增長的數據:Hadoop中如何處理日益增多的數據

例如:

第一天我可能有一些輸入文件夾1個百萬個文件(如Hadoop的/演示)

第2天在同一個文件夾中,文件可以從現有的1個百萬個文件+另一個新的1個百萬個文件增大,從而達2萬元。

同樣第3天和第4天......不斷去。

我的約束是 - >第1天的文件不應該在第二天處理。

(即)當新文件與它們一起添加時,已處理的文件不應該再次處理。更具體地說,只有新增的文件應該被處理,舊的文件應該被忽略。

所以幫我解決這個問題。

如果您不明白約束條件,請說明不清楚的地方,以便我可以詳細說明我的約束條件!

回答

2

這不是hadoop本身支持的somethinkg,因爲它是應用程序邏輯的一部分。 我會建議一些基於HDFS的解決方案,因此您將有數據尚待處理的目錄(或更好的目錄的子目錄層次結構)。
你的日常工作應採取的所有數據在那裏,過程中它並移動到「處理」文件夾中。
平時權衡這是有意義的是使邏輯在一些文件中的意外雙倍的處理不會造成問題的方式。
。在這種情況下,處理後的作業崩潰,但在移動之前不會產生問題。相反,每天調度
你可能會使用一些wokrflow工具能夠說謊通過Oozie的數據可用性觸發工作,alhough我個人沒有使用過呢。

+0

正如David所言,Oozie非常適合這類問題,並將幫助您跟蹤哪些日子無法處理 – 2012-03-22 21:10:30