文檔列表中最具代表性的文檔

嗨，我試圖找出文檔列表中最具代表性的文檔可能是什麼。我想知道是否有任何資源或文件能夠做到這一點。我已經把一些簡單的統計數據，幫助我做到這一點：文檔列表中最具代表性的文檔

所以這個想法是，DF越高，它就越能代表語料庫。如果TF評分是針對平均值進行優化的，那麼過度使用或使用較低DF詞彙的文檔將受到懲罰。

這是非常hacky，但想知道是否有更好的東西，人們遇到過。

您是否正確引用DF？還是你的意思是逆文檔頻率？原因是爲了引入懲罰你需要使用逆。我最近使用字典爲此實現了一些工具，以獲得更快的結果。

你需要他們三個：

token_doc_count = { doc_id: {token_id: count}} 
tokens_freq_corpus = {token_id: count} 
tokened_docs = {doc_id: list_of_tokens or string_of_tokens}

此外，TF - IDF應該懲罰停止詞，因此沒有必要將其刪除。

2017-04-07 19:27:27

好吧IDF會懲罰語料庫中的重要話題 - 所以在關於王牌的語料庫中，90％的人提到移民，而10％的人談論環境。 IDF將懲罰「移民」，儘管它更具代表性 – eljusticiero67

回答