頻率和雙字母組

我正在存儲在Lucene索引中的n-gram達到3級。當我讀了指數和計算方面和n元語法我獲得這樣的頻率和雙字母組

TERM    FREQUENCY....  TFIDF 
minority   25   16.512926 
minority report 24   16.179296 
report   27   13.559037 
cruise   12   11.440491 
tom cruise  7   8.737819

結果讓計分，如果我們看看「湯姆克魯斯」的例子，一起它發生7次。由此我們看到「巡航」單獨發生5次。所以我不想重複這個頻率，因爲單獨的「巡航」比「湯姆巡航」的得分要好，這是不正確的，因爲它被包含在裏面。

對不起，如果我解釋不好，我不知道如何稱這種類型的得分，如果有人知道解釋這個技術詞彙，請編輯。

謝謝

來源

2010-08-27 Julia

我相信我回答了你剛纔問過的一個類似問題。 IIUC，你想要更重要的條款脫穎而出，你覺得「湯姆巡航」比「巡航」更重要。

這看起來像是數據模型中的問題。 TFIDF似乎是錯誤的，你想要什麼。您可以嘗試構建語言模型，如Peter Norvig's "Beautiful Data" chapter中所述。

主旨在於：

計算每個每個單字組，二元和三字母組的概率（需要平滑或回退的文件作爲解釋）。
按概率而非TFIDF選擇您的條款。

A Language Model Approach to Keyphrase Extraction似乎做類似的東西。一些替代品是Kea（其使用TFIDF作爲幾個中的一個特徵）和Peter Turney's Keyphrase extraction work。

來源

2010-08-27 20:13:13

非常感謝您的提示。我去了Kea，但似乎提供了更多領域特定的受控詞表，但是從Kea頁面我讀到了有關毛伊島的一些附加功能。 http://code.google.com/p/maui-indexer/ 我看到我得到的結果非常好！但是，我現在要挖掘試圖看到算法的詳細信息和計分計算..謝謝！ – Julia 2010-08-28 12:19:28

頻率和雙字母組

回答

相關問題