0
A
回答
3
有一個很大的區別。它經常被稱爲「小文件問題」,並且與Hadoop希望將巨大輸入分成更小的任務但不將小輸入分成更大的任務有關。
看看這個博客帖子從Cloudera公司: http://www.cloudera.com/blog/2009/02/02/the-small-files-problem/
如果你能避免產生大量的文件,這樣做。儘可能連接。對於Hadoop來說,大型可拆分文件更好。
我曾經在netflix數據集上運行過Pig。花了幾個小時才能處理幾個演出。然後我將輸入文件(我認爲它是每個電影的文件或每個用戶的文件)連接成一個文件 - 在幾分鐘內得到了我的結果。
相關問題
- 1. Hadoop輸入文件訂單
- 2. Hadoop的選擇輸入文件夾
- 3. Hadoop較小的輸入文件
- 4. Hadoop流媒體與zip輸入文件
- 5. Hadoop作業輸入文件的位置
- 6. Hadoop的 - 輸入的共線文件
- 7. 如何讀取Hadoop Sequentil文件作爲Hadoop作業的輸入?
- 8. 關於gz文件作爲hadoop mapreduce作業輸入的輸入
- 9. hadoop - 存放在hadoop中的輸入/輸出文件以及如何在hadoop中執行java文件?
- 10. Hadoop多輸入
- 11. hadoop作業輸出文件
- 12. Hadoop MapReduce - 每個輸入的一個輸出文件
- 13. hadoop的輸入和輸出可以不是文件嗎?
- 14. 使用hadoop替換輸入文件中的文本MR
- 15. 導入CSV文件導入Hadoop的
- 16. 實現輸入拆分(HADOOP)
- 17. 輸入分配Hadoop中
- 18. 創建輸入分割(HADOOP)
- 19. Hadoop輸入格式 - 用法
- 20. Hadoop Streaming多行輸入
- 21. 不使用文件的Hadoop自定義輸入格式
- 22. 如何使用Hadoop處理.gz輸入文件?
- 23. 爲hadoop作業指定多個輸入文件
- 24. 多個文件作爲輸入到Hadoop Dfs和mapreduce
- 25. 具有多個輸入文件的Hadoop流
- 26. Mapper類如何將SequenceFile標識爲hadoop中的輸入文件?
- 27. Hadoop使用文件夾結構作爲輸入
- 28. 直接指定Hadoop mapreduce輸入密鑰(不是來自文件)
- 29. 結構化流式傳輸將實驗性文件寫入hadoop
- 30. hadoop是否自動複製輸入文件不在HDFS上?