2012-04-13 235 views
2

我剛剛開始使用Hadoop並編寫一些Map Reduce作業。我一直在尋找幫助,在Python中編寫MR作業,允許我接收一些電子郵件並將它們放到HDFS中,以便我可以搜索電子郵件的文本或附件?電子郵件和地圖減少作業

謝謝!

回答

3

爲了處理電子郵件,stdlib中的email模塊可能會很方便。對於Hadoop方面,Using Python with Hadoop可能很方便,雖然有很多谷歌搜索結果可供選擇。

+0

會不會有一些示例代碼來看看? – 2012-04-16 03:38:09

+0

@StevenSmith如果你使用前面鏈接中提到的dumbo框架,你可以看看這個簡短的教程:https://github.com/klbostee/dumbo/wiki/Short-tutorial。 – 2012-04-16 19:57:51

1

是啊,你需要使用Hadoop的數據流,如果你想用寫Python代碼運行MapReduce作業