mrjob

2熱度

1回答

我想使用MRJob Python框架對來自S3存儲桶com.test.mybucket的數據運行Elastic Mapreduce。但是，我在S3中有很多其他數據，以及其他我不想觸及的EC2實例。 AWS用戶執行完整工作所需的最小可能訪問憑證集是什麼？

0熱度

2回答

hadoop與外殼上的mrjob管道

像其他人一樣，我有一個關於mrjob的問題。我正在使用hadoopcluster超過3個datanodes使用一個namenode和一個 jobtracker。一記漂亮的樣本應用程序開始我下面 first_script.py: for i in range(1,2000000): print "My Line "+str(i) 這顯然是寫一堆線到stdout 二

3熱度

2回答

Python模塊導入錯誤「導入錯誤：沒有模塊名爲mrjob.job」

操作系統：Mac OSX 10.6.5，Python 2.6中我嘗試運行下面的python腳本： from mrjob.job import MRJob class MRWordCounter(MRJob): def mapper(self, key, line): for word in line.split(): yield word, 1

0熱度

2回答

運行python mrjob字數統計示例時出錯

我正在嘗試使用mrjob運行示例字數統計map reduce任務。我收到以下錯誤： Traceback (most recent call last): File "mr.py", line 3, in <module> from mrjob.job import MRJob File "/Library/Frameworks/EPD64.framework/Vers

6熱度

2回答

如何在MRjob中獲取輸入文件的名稱

我正在使用mrjob編寫地圖函數。我的輸入將來自HDFS目錄中的文件。這些文件的名稱包含一個小的但是至關重要的信息，這些信息不存在於這些文件中。有沒有一種方法可以學習（在map函數中）給定鍵值對來自哪個輸入文件的名稱？我找的這個Java代碼等價物：提前 FileSplit fileSplit = (FileSplit)reporter.getInputSplit(); String fileN

6熱度

4回答

多輸入與MRJob

我想學習使用YRIP的Python API的MapReduce，MRJob。他們簡單的詞計數器例子是有道理的，但我很好奇如何處理涉及多個輸入的應用程序。例如，不是簡單地計算文檔中的單詞，而是將矢量與矩陣相乘。我想出了這個解決方案，它的功能，但感覺傻傻的： class MatrixVectMultiplyTast(MRJob): def multiply(self,key,line):

9熱度

2回答

Numpy and Scipy with Amazon Elastic MapReduce

使用mrjob在亞馬遜的彈性MapReduce上運行python代碼我已經成功地找到了一種方法來升級EMR圖像的numpy和scipy。從控制檯中運行以下命令的工作： tar -cvf py_bundle.tar mymain.py Utils.py numpy-1.6.1.tar.gz scipy-0.9.0.tar.gz gzip py_bundle.tar pyth

1熱度

2回答

有沒有辦法確定在Hadoop/Dumbo/Mrjob中傳遞給地圖作業的文件名？

全部，我正在創建一個接口，用於處理一些海量數據並生成用於執行一些機器學習內容的arff文件。我目前可以收集這些功能，但我無法將它們與它們來源的文件關聯起來。我目前使用的小飛 def mapper(key, value): #do stuff to generate features 是否有確定被打開，並傳遞給映射函數對其內容的文件名的任何方便的方法？再次感謝。 -Sam

0熱度

1回答

在EMR上的MRJob中導入模塊

簡單的問題：我有一個模塊headers.py，它在我的主MRJob腳本中定義了一些我需要的變量。我應該能夠運行與 python MRMyJob -r emr --file=headers.py s3://input/data/path ，然後在我的MRJob腳本（MRMyJob）的工作，下面應該工作： from headers import header1, header2, header3