我工作的並行算法,大致具有以下功能:來自內存的對象作爲Hadoop/MapReduce的輸入?
- 閱讀一些文本文檔,共10K字。
- 爲文本語料庫中的每個單詞創建一個對象。
- 在所有單詞對象(是,O(n))之間創建一個對。並返回最頻繁的對。
我想通過創建之間的對並行化3步驟中的第一字1000的對象的拳頭機上的其餘部分,下一個機器上的第二1000字對象等
我的問題是如何將在第2步中創建的對象傳遞給Mapper?據我所知,我會需要這個輸入文件,因此需要序列化對象(雖然以前沒有用過)。有沒有直接的方法將對象傳遞給Mapper?
在此先感謝您的幫助
葉夫根
UPDATE 感謝您閱讀之前,我的問題。序列化似乎是解決此問題的最佳方法(請參閱java.io.Serializable)。此外,我發現這個教程很有用,可以將序列化對象中的數據讀入hadoop:http://www.cs.brown.edu/~pavlo/hadoop/)。
不以任何方式在這方面的專家,但我不認爲有這方面的專家。序列化對象不是很難。 – Nick 2011-02-09 03:35:28