2011-04-07 99 views
0

我試圖通過關聯在數據庫中找到類似的文章。因此,我將文本分割成單詞列,然後刪除經常使用的單詞(文章,代詞等),然後將兩個文本與皮爾森係數函數進行比較。對於某些文本是有效的,但對於其他文本則不太好(文本較大的文本具有較高的係數)。查找相關文本(兩個文本之間的關聯)

有人可以建議一個很好的方法來找到相關的文本?

+0

正在搜索答案,你是如何將Pearson應用於兩個文本列表的? – KillBill 2014-10-30 05:21:15

回答

0

您提到的一些問題歸結爲文檔長度和整體詞頻的歸一化。嘗試tf-idf