1
我現在遇到的問題是這樣的: 在已經把我的input.txt
(50MBytes)文件到HDFS,我跑MrJob花費了大量的時間複製本地文件到HDFS
python ./test.py hdfs:///user/myself/input.txt -r hadoop --hadoop-bin /usr/bin/hadoop
看來, MrJob花費大量時間將文件複製到hdfs(又是什麼?)
Copying local files into hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/
這是合乎邏輯的嗎?它不應該直接從HDFS使用input.txt
嗎?
(使用Hadoop版本2.6.0)