0
嗨,我試圖找出文檔列表中最具代表性的文檔可能是什麼。我想知道是否有任何資源或文件能夠做到這一點。我已經把一些簡單的統計數據,幫助我做到這一點:文檔列表中最具代表性的文檔
- 移除停止字,使用二元語法
- 矩陣乘法和TF乘以DF的總和來獲得該文檔
- 不管文檔具有得分一個最接近平均TF * DF的TF * DF分數將被檢索
所以這個想法是,DF越高,它就越能代表語料庫。如果TF評分是針對平均值進行優化的,那麼過度使用或使用較低DF詞彙的文檔將受到懲罰。
這是非常hacky,但想知道是否有更好的東西,人們遇到過。
好吧IDF會懲罰語料庫中的重要話題 - 所以在關於王牌的語料庫中,90%的人提到移民,而10%的人談論環境。 IDF將懲罰「移民」,儘管它更具代表性 – eljusticiero67