如何從文本語料庫中提取語義相關性

目標是評估大型文本語料庫中詞語之間的語義相關性，例如。 '警察'和'犯罪'應該比'警察'和'山'有更強的語義相關性，因爲它們傾向於在相同的背景下共同發生。如何從文本語料庫中提取語義相關性

我讀過的最簡單的方法是從語料庫中提取IF-IDF信息。

很多人都使用潛在語義分析來發現語義相關性。

我遇到了Lucene搜索引擎：http://lucene.apache.org/

你認爲這是合適的提取IF-IDF？

對於技術和軟件工具（對於Java的偏好）而言，您會推薦做什麼？

在此先感謝！

Mulone

來源

2011-05-25 Mulone

是的，Lucene獲取TF-IDF數據。 Carrot^2算法是構建在Lucene上的語義提取程序的一個例子。我提到它，因爲作爲第一步，他們創建了一個相關矩陣。當然，你可能可以輕鬆地構建這個矩陣。

如果你處理大量的數據，你可能想要使用Mahout來處理更難的線性代數部分。

來源

2011-05-26 18:28:47 Xodarap

如果你有lucene索引，這很容易。例如，要獲得相關性，可以使用簡單公式計數（term1和term2）/ count（term1）* count（term2）。計數來自您的搜索結果。此外，你可以輕鬆地計算其他semidica指標，如chi^2，信息增益。所有你需要的是獲得公式並將其轉換爲count從Query

來源

2011-10-10 14:22:56 yura

如何從文本語料庫中提取語義相關性

回答

相關問題