2009-08-03 87 views
0

運行hadoop時,在輸入文件夾中是否有n行文件與1行輸入文件夾和輸入文件夾中有n行文件有區別?Hadoop輸入文件

如果有n個文件,「InputFormat」只是將它看作1個連續文件嗎?

回答

3

有一個很大的區別。它經常被稱爲「小文件問題」,並且與Hadoop希望將巨大輸入分成更小的任務但不將小輸入分成更大的任務有關。

看看這個博客帖子從Cloudera公司: http://www.cloudera.com/blog/2009/02/02/the-small-files-problem/

如果你能避免產生大量的文件,這樣做。儘可能連接。對於Hadoop來說,大型可拆分文件更好。

我曾經在netflix數據集上運行過Pig。花了幾個小時才能處理幾個演出。然後我將輸入文件(我認爲它是每個電影的文件或每個用戶的文件)連接成一個文件 - 在幾分鐘內得到了我的結果。