目標是評估大型文本語料庫中詞語之間的語義相關性,例如。 '警察'和'犯罪'應該比'警察'和'山'有更強的語義相關性,因爲它們傾向於在相同的背景下共同發生。如何從文本語料庫中提取語義相關性
我讀過的最簡單的方法是從語料庫中提取IF-IDF信息。
很多人都使用潛在語義分析來發現語義相關性。
我遇到了Lucene搜索引擎:http://lucene.apache.org/
你認爲這是合適的提取IF-IDF?
對於技術和軟件工具(對於Java的偏好)而言,您會推薦做什麼?
在此先感謝!
Mulone