mrjob

    0熱度

    2回答

    我正在嘗試在亞馬遜的EMR上運行mrjob。我使用內聯運行器在本地測試了該作業,但在亞馬遜上運行時失敗。我將故障範圍縮小到了我對外部數據文件zip_codes.txt的依賴。如果我使用硬編碼的郵政編碼數據運行沒有依賴關係,它工作得很好。 我試圖使用上傳文件參數包含必要的數據文件。當我看到S3時,該文件確實在那裏,但顯然有些事情出錯了,所以我無法在本地訪問它。 這裏是我的mrjob.conf文件:

    0熱度

    1回答

    我想知道一個mrjob程序運行多久。但是,如果我在MRWord.run()之前和之後輸入time.time(),則會出現unindent does not match any outer indentation level錯誤,並且我找不到任何相關文檔。我錯過了什麼? from mrjob.job import MRJob class MRWord(MRJob): def mapp

    2熱度

    3回答

    我看到examples的人寫EMR輸出到HDFS,但我一直沒能找到它如何完成的例子。最重要的是,this documentation似乎表示,EMR流作業的--output參數必須是是S3存儲桶。 當我真的嘗試運行一個腳本(在這種情況下,使用python streaming和mrJob)時,它會拋出一個「Invalid S3 URI」錯誤。 這裏的命令: python my_script.py -

    1熱度

    1回答

    我試圖從mrjob模塊訪問s3文件。 這裏是一個的失敗代碼: from mrjob.emr import S3Filesystem fs = S3Filesystem("<aws_access_key_id>", "<aws_secret_access_key>", "us-west-2") fs.get_s3_key("s3n://<bucket>/<folder>/file.txt")

    4熱度

    1回答

    我錯過了Yelp的mrjob job庫的一些明顯的東西。設置MRJob類幾乎非常簡單。通過file或stdin運行也是如此。但是,我怎樣才能將本地或s3文件中的輸入從文件中更改爲s3中的密鑰? 就是這樣。假設我想指望在我的S3存儲桶以字符串「富」開頭的所有對象: import re class MRCountS3Objects(MRJob): define mapper(self,

    0熱度

    1回答

    我有以下簡單mrjob腳本,它讀出由線大文件中的行,在每行上執行操作,並打印輸出: #!/usr/bin/env python from mrjob.job import MRJob class LineProcessor(MRJob): def mapper(self, _, line): yield (line.

    6熱度

    2回答

    我通過mrjob/boto模塊將代碼發送到亞馬遜的EMR。我有一些外部python依賴項(即numpy,boto等),目前必須下載python包的源代碼,並將它們作爲tar包發送到mrjob.config文件的「python_archives」字段中。 這使得依賴管理比我想要的更混亂,並且想知道我是否可以以某種方式使用與我的virtualenv安裝程序相同的requirements.txt文件來引

    1熱度

    2回答

    我使用Elastic Map Reduce時出現錯誤,我不確定它是什麼意思,因爲它不是很具描述性。我想知道具體是什麼樣的JSONDecodeError。 「12」不是描述性的。這是輸出。我正在使用MRjob類 writing to step-0-mapper_part-00000 writing to step-0-mapper_part-00001 Counters from step 1:

    1熱度

    1回答

    我正在使用wordcount示例在我的筆記本電腦上學習/測試mrjobs。 我能夠提供本地文件在命令模式下輸入,但不知道如何從python腳本中做同樣的事情。 非常感謝一個簡單的例子。 感謝 Ananth

    3熱度

    2回答

    我正在使用MRjob在我們的HBase實例上運行Hadoop Streaming作業。對於我的生活,我無法弄清楚如何將一個參數傳遞給我的reducer。我有兩個參數,我想從我運行作業時傳遞給reducer:startDate和endDate。這是我目前的減速機看起來像︰ def reducer(self, groupId, meterList): """ Print bucke