像其他人一樣,我有一個關於mrjob的問題。 我正在使用hadoopcluster超過3個datanodes使用一個namenode和一個 jobtracker。 一記漂亮的樣本應用程序開始我下面 first_script.py:
for i in range(1,2000000):
print "My Line "+str(i)
這顯然是寫一堆線到stdout 二
操作系統:Mac OSX 10.6.5,Python 2.6中 我嘗試運行下面的python腳本: from mrjob.job import MRJob
class MRWordCounter(MRJob):
def mapper(self, key, line):
for word in line.split():
yield word, 1