Hadoop輸入文件

運行hadoop時，在輸入文件夾中是否有n行文件與1行輸入文件夾和輸入文件夾中有n行文件有區別？Hadoop輸入文件

如果有n個文件，「InputFormat」只是將它看作1個連續文件嗎？

2009-08-03 Verhogen

有一個很大的區別。它經常被稱爲「小文件問題」，並且與Hadoop希望將巨大輸入分成更小的任務但不將小輸入分成更大的任務有關。

如果你能避免產生大量的文件，這樣做。儘可能連接。對於Hadoop來說，大型可拆分文件更好。

我曾經在netflix數據集上運行過Pig。花了幾個小時才能處理幾個演出。然後我將輸入文件（我認爲它是每個電影的文件或每個用戶的文件）連接成一個文件 - 在幾分鐘內得到了我的結果。

2009-08-07 01:29:06 SquareCog

回答