2008-10-22 53 views
7

我需要一個很好的干擾算法來處理我正在處理的項目。有人建議我看看Porter Stemmer。當我檢查了波特詞幹的頁面時,我發現它現在已被棄用,轉而使用「雪球」詞幹。什麼是最好的「交鑰匙」干擾算法?

我需要一個好的stemmer,但我真的不能花大量的時間來實現(或優化)我自己的。什麼是最好的「現成」,免費提供的stemmer?有沒有非合理的價格?或者,雪球製作者是我最好的選擇?

回答

8

Porter2詞法分析器是我決定使用的詞法分析器。看起來porter stemmer是標準的,但是當我找到作者的頁面時,他推薦了「Snowball(Porter2)」詞幹。此頁面上有一個C端口鏈接。

2

這實際上取決於你打算如何應用它。自然語言工具包(http://nltk.sourceforge.net)在其中實現了許多幹擾源,它們應該能夠處理大多數應用程序。我更喜歡Morphy的詞幹。

當然,它可以在Python中使用,所以如果您使用的是其他語言,您可以隨時查看代碼以收集算法並將其轉換爲您選擇的語言。 Python非常易讀。