2011-02-01 92 views
3

如何從字符串中有效地提取關鍵字?我的關鍵字列表是預定義的。例如,在一篇關於米歇爾奧巴馬的文章中,也提到了奧巴馬,我想提取Michelle ObamaBarack Obama,關鍵字Michelle Obama獲得更高的相關性值(Michelle ObamaBarack Obama都出現在我的關鍵字列表中)。高效的關鍵字檢測/提取。預定義的一組關鍵字

檢查字符串中每個關鍵字的出現次數似乎效率不高。我的應用程序是用PHP開發的,但任何語言都可以,如果我可以有效地做到這一點。

我試過OpenCalais,但它沒有檢測到我的大部分關鍵字。是否有可能使用Lucene提取關鍵字?

+0

有沒有人有這方面的經驗?謝謝? – 2011-02-02 07:05:56

回答

1

apache lucene包將適合你。然而,如果你有標題和段落,你可以過濾出停用詞,給予標題中單詞更高的排名,然後在段落中匹配它們或它們的表單。你可以參考一些文本摘要文章,以便更好地編程。