查找相關文本（兩個文本之間的關聯）

我試圖通過關聯在數據庫中找到類似的文章。因此，我將文本分割成單詞列，然後刪除經常使用的單詞（文章，代詞等），然後將兩個文本與皮爾森係數函數進行比較。對於某些文本是有效的，但對於其他文本則不太好（文本較大的文本具有較高的係數）。查找相關文本（兩個文本之間的關聯）

有人可以建議一個很好的方法來找到相關的文本？

2011-04-07 x2.

正在搜索答案，你是如何將Pearson應用於兩個文本列表的？ – KillBill 2014-10-30 05:21:15

您提到的一些問題歸結爲文檔長度和整體詞頻的歸一化。嘗試tf-idf。

2011-04-30 14:45:54 highBandWidth

回答