2015-09-27 78 views
1

我現在遇到的問題是這樣的: 在已經把我的input.txt(50MBytes)文件到HDFS,我跑MrJob花費了大量的時間複製本地文件到HDFS

python ./test.py hdfs:///user/myself/input.txt -r hadoop --hadoop-bin /usr/bin/hadoop 

看來, MrJob花費大量時間將文件複製到hdfs(又是什麼?)

Copying local files into hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/ 

這是合乎邏輯的嗎?它不應該直接從HDFS使用input.txt嗎?

(使用Hadoop版本2.6.0)

回答

1

看那hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/的內容,你會看到,input.txt不是唯一的被複制到HDFS文件。

什麼是複製是mrjob的整個python目錄,以便它可以在每個節點上解壓縮。 (mrjob假定mrjob未安裝在羣集中的每個節點上。)

相關問題