這是我爲學校做的一項信息檢索工作。計劃是使用該單詞的前兩個字母作爲關鍵字以及將這兩個字母保存爲字符串值的任何單詞創建單詞的哈希表。所以,幫助建立倒排索引
的HashMap [「BA」] =「壞大麥基地」
一旦我做了標記化而行我採取的HashMap,序列化,並將其追加到關鍵命名的文本文件。
這個想法是,如果我把數據分散到數百個文件中,我會減少每個文件的密度以減少搜索的時間。我遇到的問題是,當我在每次運行中製作超過100個文件時,它會因爲任何原因而窒息創建幾個文件,因此這些條目是空的。 有什麼辦法可以讓這個更高效?值得繼續嗎,還是應該放棄它?
我想提一下我正在使用PHP。我比較熟悉的兩種語言是PHP和Java。我選擇了PHP,因爲前端將非常簡單,我可以添加諸如自動完成/建議搜索等功能,而不會出現問題。我也看不到使用Java的好處。任何幫助表示讚賞,謝謝。
會使用數據庫是一個選項嗎? – VolkerK 2010-04-03 10:06:06
不幸的不是。我必須自己編制索引並選擇所有內容。 – tipu 2010-04-07 06:39:12