2017-04-07 60 views
0

嗨,我試圖找出文檔列表中最具代表性的文檔可能是什麼。我想知道是否有任何資源或文件能夠做到這一點。我已經把一些簡單的統計數據,幫助我做到這一點:文檔列表中最具代表性的文檔

  • 移除停止字,使用二元語法
  • 矩陣乘法和TF乘以DF的總和來獲得該文檔
  • 不管文檔具有得分一個最接近平均TF * DF的TF * DF分數將被檢索

所以這個想法是,DF越高,它就越能代表語料庫。如果TF評分是針對平均值進行優化的,那麼過度使用或使用較低DF詞彙的文檔將受到懲罰。

這是非常hacky,但想知道是否有更好的東西,人們遇到過。

回答

0

您是否正確引用DF?還是你的意思是逆文檔頻率?原因是爲了引入懲罰你需要使用逆。我最近使用字典爲此實現了一些工具,以獲得更快的結果。

你需要他們三個:

token_doc_count = { doc_id: {token_id: count}} 
tokens_freq_corpus = {token_id: count} 
tokened_docs = {doc_id: list_of_tokens or string_of_tokens} 

此外,TF - IDF應該懲罰停止詞,因此沒有必要將其刪除。

+0

好吧IDF會懲罰語料庫中的重要話題 - 所以在關於王牌的語料庫中,90%的人提到移民,而10%的人談論環境。 IDF將懲罰「移民」,儘管它更具代表性 – eljusticiero67