MrJob花費了大量的時間複製本地文件到HDFS

我現在遇到的問題是這樣的：在已經把我的input.txt（50MBytes）文件到HDFS，我跑MrJob花費了大量的時間複製本地文件到HDFS

python ./test.py hdfs:///user/myself/input.txt -r hadoop --hadoop-bin /usr/bin/hadoop

看來， MrJob花費大量時間將文件複製到hdfs（又是什麼？）

Copying local files into hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/

這是合乎邏輯的嗎？它不應該直接從HDFS使用input.txt嗎？

（使用Hadoop版本2.6.0）

2015-09-27 Nikos

看那hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/的內容，你會看到，input.txt不是唯一的被複制到HDFS文件。

什麼是複製是mrjob的整個python目錄，以便它可以在每個節點上解壓縮。（mrjob假定mrjob未安裝在羣集中的每個節點上。）

2016-02-17 11:29:39 vy32

回答