mrjob

    2熱度

    1回答

    我想使用MRJob Python框架對來自S3存儲桶com.test.mybucket的數據運行Elastic Mapreduce。但是,我在S3中有很多其他數據,以及其他我不想觸及的EC2實例。 AWS用戶執行完整工作所需的最小可能訪問憑證集是什麼?

    0熱度

    2回答

    像其他人一樣,我有一個關於mrjob的問題。 我正在使用hadoopcluster超過3個datanodes使用一個namenode和一個 jobtracker。 一記漂亮的樣本應用程序開始我下面 first_script.py: for i in range(1,2000000): print "My Line "+str(i) 這顯然是寫一堆線到stdout 二

    3熱度

    2回答

    操作系統:Mac OSX 10.6.5,Python 2.6中 我嘗試運行下面的python腳本: from mrjob.job import MRJob class MRWordCounter(MRJob): def mapper(self, key, line): for word in line.split(): yield word, 1

    0熱度

    2回答

    我正在嘗試使用mrjob運行示例字數統計map reduce任務。我收到以下錯誤: Traceback (most recent call last): File "mr.py", line 3, in <module> from mrjob.job import MRJob File "/Library/Frameworks/EPD64.framework/Vers

    6熱度

    2回答

    我正在使用mrjob編寫地圖函數。我的輸入將來自HDFS目錄中的文件。這些文件的名稱包含一個小的但是至關重要的信息,這些信息不存在於這些文件中。有沒有一種方法可以學習(在map函數中)給定鍵值對來自哪個輸入文件的名稱? 我找的這個Java代碼等價物:提前 FileSplit fileSplit = (FileSplit)reporter.getInputSplit(); String fileN

    6熱度

    4回答

    我想學習使用YRIP的Python API的MapReduce,MRJob。他們簡單的詞計數器例子是有道理的,但我很好奇如何處理涉及多個輸入的應用程序。例如,不是簡單地計算文檔中的單詞,而是將矢量與矩陣相乘。我想出了這個解決方案,它的功能,但感覺傻傻的: class MatrixVectMultiplyTast(MRJob): def multiply(self,key,line):

    9熱度

    2回答

    使用mrjob在亞馬遜的彈性MapReduce上運行python代碼我已經成功地找到了一種方法來升級EMR圖像的numpy和scipy。 從控制檯中運行以下命令的工作: tar -cvf py_bundle.tar mymain.py Utils.py numpy-1.6.1.tar.gz scipy-0.9.0.tar.gz gzip py_bundle.tar pyth

    1熱度

    2回答

    全部, 我正在創建一個接口,用於處理一些海量數據並生成用於執行一些機器學習內容的arff文件。我目前可以收集這些功能,但我無法將它們與它們來源的文件關聯起來。我目前使用的小飛 def mapper(key, value): #do stuff to generate features 是否有確定被打開,並傳遞給映射函數對其內容的文件名的任何方便的方法? 再次感謝。 -Sam

    0熱度

    1回答

    簡單的問題:我有一個模塊headers.py,它在我的主MRJob腳本中定義了一些我需要的變量。我應該能夠運行與 python MRMyJob -r emr --file=headers.py s3://input/data/path ,然後在我的MRJob腳本(MRMyJob)的工作,下面應該工作: from headers import header1, header2, header3