我有一個算法,將通過一個大型的數據集讀取一些文本文件,並在這些行中搜索特定的術語。我已經用Java實現了它,但我不想發佈代碼,以便它看起來不在我正在尋找某人爲我實現它,但這確實是我真的需要很多幫助!這不是我的項目計劃,但數據集是巨大的,所以老師告訴我,我必須這樣做。需要幫助實現這個算法與地圖Hadoop MapReduce
編輯(我沒有澄清我previos版本)的數據集我是Hadoop集羣上,我應該做出的MapReduce實現
我讀到關於MapReduce和thaught,我第一次做標準的實現,然後用mapreduce做起來會更容易/不那麼容易。但沒有發生,因爲算法是相當愚蠢的,沒有什麼特別的,地圖減少...我不能籠絡它。
所以這裏不久僞我的算法的代碼
LIST termList (there is method that creates this list from lucene index)
FOLDER topFolder
INPUT topFolder
IF it is folder and not empty
list files (there are 30 sub folders inside)
FOR EACH sub folder
GET file "CheckedFile.txt"
analyze(CheckedFile)
ENDFOR
END IF
Method ANALYZE(CheckedFile)
read CheckedFile
WHILE CheckedFile has next line
GET line
FOR(loops through termList)
GET third word from line
IF third word = term from list
append whole line to string buffer
ENDIF
ENDFOR
END WHILE
OUTPUT string buffer to file
而且,正如你所看到的,每次當「分析」之稱,新文件被創建時,我明白了地圖減輕困難寫入許多輸出?
我明白mapreduce的直覺,我的例子似乎完全適合mapreduce,但是當涉及到這樣做時,顯然我不知道足夠多,而且我很餓!
請幫忙。
嗨! Thanx的答案!但我不確定我明白:/你能給我更多的信息嗎?你可能有這樣的例子嗎? – Julia 2010-06-08 15:30:26