2014-05-05 25 views
0

我有一個相對較大的文件 - 大約10GB來處理。如果MRJob決定將它分類到RAM或類似的東西,我懷疑它不適合我的筆記本電腦的RAM。我可以使用MRJob以本地模式處理大文件嗎?

與此同時,我不想安裝hadoop或EMR--工作並不緊急,我可以在入睡前簡單地啓動工作,並在第二天早上得到結果。換句話說,我對本地模式很滿意。我知道,表演不會很完美,但現在可以。

那麼它可以在一臺弱機器上處理這些「大」文件嗎?如果是的話 - 你會推薦做什麼(除了設置自定義的tmp目錄指向文件系統,而不是快速耗盡的ramdisk)。假設我們使用0.4.1版本。

回答

1

我認爲RAM大小不會成爲mrjob的python runner的問題。每個步驟的輸出應該寫到磁盤上的臨時文件中,所以它不應該填滿我相信的RAM。將輸出轉儲到磁盤是Hadoop應該採用的方式(以及由於IO而導致緩慢的原因)。所以我只是運行這個工作,看看它是如何發展的。

如果RAM大小有問題,您可以在筆記本電腦上創建足夠的交換空間以使其至少能夠運行,如果該分區不在SSD上,則認爲它會很慢。

相關問題