2011-03-12 41 views
1

我正在開發一些軟件,旨在通過執行TF-IDF(與一般英語語料庫相比刪除常見單詞進行比較)來唯一標識網頁。花了一段時間找到一個好的免費語料庫(http://www.wordfrequency.info/top5000.asp),但是,這個語料庫只提供頻率和分散度。它沒有說明語料庫中包含了多少文檔,所以我無法編制IDF表格。它包含一個分散值,範圍從0到1,其中1表示在每個文檔中出現一個詞。 有沒有人知道(或可以找出)使用這些數據來實現類似IDF表的方法? 此外,如果任何人知道一個免費的語料庫,其中包括我需要的信息,就像贊賞一樣。 感謝TF-IDF語料庫有沒有可能使用散佈

回答

4
IDF = log (Total Documents in Corpus/Total Documents containing the term) 

如果分散是含有條件的文檔的分數,則:log (1/dispersion)將是IDF

+1

你不會相信我是多麼面對僞稱當我意識到這一點。不過謝謝 – nonamenonumber 2011-03-12 21:45:43

相關問題