從語料庫中提取類似單詞

我想從語料庫中提取類似單詞。相似性基於字符串。即，當兩個單詞串高度相似時，兩個單詞被提取爲相似單詞。例如，如果語料庫包含：Aras，bahro，arasis，adkpo，bah，aras sd，kio。從語料庫中提取類似單詞

近義詞：

1阿拉，arasis，阿拉SD

2- bahro，呸

如何解決這個問題呢？謝謝。

來源

2014-08-28 SahelSoft

Levenshtein distance是衡量兩個單詞序列之間差異的度量標準，也許您可以採取一系列單詞並計算距離以瞭解它們是否相似。

來源

2014-08-28 08:24:09 salmuz

我會添加一個類似這樣的參考：http://stackoverflow.com/questions/10136470/unsupervised-clustering-with-unknown-number-of-clusters – Yasen 2014-08-28 09:11:26

你可以檢查我的答案在類似的問題：http ：//stackoverflow.com/questions/24150440/unable-to-follow-the-intuition-behind-minimum-edit-distance/24151217#24151217 – Pierre 2014-08-28 14:42:39

從語料庫中提取類似單詞

回答

相關問題