1

目標是評估大型文本語料庫中詞語之間的語義相關性,例如。 '警察'和'犯罪'應該比'警察'和'山'有更強的語義相關性,因爲它們傾向於在相同的背景下共同發生。如何從文本語料庫中提取語義相關性

我讀過的最簡單的方法是從語料庫中提取IF-IDF信息。

很多人都使用潛在語義分析來發現語義相關性。

我遇到了Lucene搜索引擎:http://lucene.apache.org/

你認爲這是合適的提取IF-IDF?

對於技術和軟件工具(對於Java的偏好)而言,您會推薦做什麼?

在此先感謝!

Mulone

回答

0

是的,Lucene獲取TF-IDF數據。 Carrot^2算法是構建在Lucene上的語義提取程序的一個例子。我提到它,因爲作爲第一步,他們創建了一個相關矩陣。當然,你可能可以輕鬆地構建這個矩陣。

如果你處理大量的數據,你可能想要使用Mahout來處理更難的線性代數部分。

0

如果你有lucene索引,這很容易。例如,要獲得相關性,可以使用簡單公式計數(term1和term2)/ count(term1)* count(term2)。計數來自您的搜索結果。此外,你可以輕鬆地計算其他semidica指標,如chi^2,信息增益。所有你需要的是獲得公式並將其轉換爲countQuery

相關問題