我有一個巨大的文本文件的字符串緩衝區。我必須在字符串緩衝區中搜索給定的單詞/短語。什麼是有效的方式來做到這一點?在Python中一次遍歷字符串字
我嘗試使用重新模塊匹配。但是,因爲我有一個巨大的文本語料庫,我必須搜索。這需要大量時間。
鑑於詞和短語的字典。
我通過每一個文件重複,讀取到的字符串,搜索所有的單詞和短語在字典和增加計數在字典中如果發現鑰匙。我們認爲
一個小小的優化是排序的短語/詞的字典,以最低的最大字數。然後比較字符串緩衝區中的每個字開始位置並比較字的列表。如果找到一個詞,我們不尋求其他的詞組(因爲它匹配最長的短語,這正是我們想要的)
有一個人可以建議如何去一字一句的字符串緩衝區。 (逐字迭代字符串緩衝區)?
此外,有沒有可以在此做任何其他的優化?
data = str(file_content)
for j in dictionary_entity.keys():
cnt = data.count(j+" ")
if cnt != -1:
dictionary_entity[j] = dictionary_entity[j] + cnt
f.close()
我有一個巨大的文本語料庫,並且我試圖獲取這個語料庫中200萬個詞組/單詞的出現次數。 – AlgoMan 2010-05-04 20:16:09
什麼是語料庫? – dlamotte 2010-05-04 20:21:12
你正在實施一個單詞/短語計數器還是什麼? – dlamotte 2010-05-04 20:22:24