像其他人一樣,我有一個關於mrjob的問題。 我正在使用hadoopcluster超過3個datanodes使用一個namenode和一個 jobtracker。 一記漂亮的樣本應用程序開始我下面hadoop與外殼上的mrjob管道
first_script.py:
for i in range(1,2000000):
print "My Line "+str(i)
這顯然是寫一堆線到stdout 二級劇本是mrjobs映射器和減速寫的東西像 。 從UNIX(GNU)調用我想:
python first_script| python second_script.py -r hadoop
GET操作上工作,但它上傳輸入到HDFS 完全。正當所有東西都上傳時,他正在開始第二份工作。 所以我的問題是: 是否有可能強制流? (像發送EOF?) 還是我得到了錯誤? 預先致謝 Joker P.S.我對我缺乏適當的英語表示歉意。我不是原生的 揚聲器