2012-08-07 55 views
0

任何人都知道使用Python和NLTK獲取最接近搜索查詢的文章的簡單方法嗎?例如,我想從維基百科獲取10篇文章,找到每篇文章的頻率分佈(以及另一種分類方法,如果您有任何建議),並根據搜索查詢返回最可能的文章可能是指。返回基於頻率分佈的文章 - Python NLTK

任何想法?除了頻率分佈之外,我想要一個更好的方法,但我想我會從那裏開始。

回答

2

Rocchio的算法又名TFxIDF又名又名tf-idf又名tfidf又名甚至tf/idf(原文如此)幾乎是標準的解決方案。計算整個文檔集的術語頻率,而不是純粹的頻率,然後將術語的權重表示爲文檔的術語頻率除以總頻率計數。這樣,你就不需要停用詞語,因爲一個常見詞的IDF會使其權重幾乎爲零。