我可以使用MRJob以本地模式處理大文件嗎？

我有一個相對較大的文件 - 大約10GB來處理。如果MRJob決定將它分類到RAM或類似的東西，我懷疑它不適合我的筆記本電腦的RAM。我可以使用MRJob以本地模式處理大文件嗎？

與此同時，我不想安裝hadoop或EMR--工作並不緊急，我可以在入睡前簡單地啓動工作，並在第二天早上得到結果。換句話說，我對本地模式很滿意。我知道，表演不會很完美，但現在可以。

那麼它可以在一臺弱機器上處理這些「大」文件嗎？如果是的話 - 你會推薦做什麼（除了設置自定義的tmp目錄指向文件系統，而不是快速耗盡的ramdisk）。假設我們使用0.4.1版本。

2014-05-05 Spaceman

我認爲RAM大小不會成爲mrjob的python runner的問題。每個步驟的輸出應該寫到磁盤上的臨時文件中，所以它不應該填滿我相信的RAM。將輸出轉儲到磁盤是Hadoop應該採用的方式（以及由於IO而導致緩慢的原因）。所以我只是運行這個工作，看看它是如何發展的。

如果RAM大小有問題，您可以在筆記本電腦上創建足夠的交換空間以使其至少能夠運行，如果該分區不在SSD上，則認爲它會很慢。

2014-05-06 09:09:01

回答