2014-08-28 84 views
0

我想從語料庫中提取類似單詞。相似性基於字符串。即,當兩個單詞串高度相似時,兩個單詞被提取爲相似單詞。例如,如果語料庫包含:Aras,bahro,arasis,adkpo,bah,aras sd,kio。從語料庫中提取類似單詞

近義詞:

1阿拉,arasis,阿拉SD

2- bahro,呸

如何解決這個問題呢? 謝謝。

回答

0

Levenshtein distance是衡量兩個單詞序列之間差異的度量標準,也許您可​​以採取一系列單詞並計算距離以瞭解它們是否相似。

+0

我會添加一個類似這樣的參考:http://stackoverflow.com/questions/10136470/unsupervised-clustering-with-unknown-number-of-clusters – Yasen 2014-08-28 09:11:26

+0

你可以檢查我的答案在類似的問題:http ://stackoverflow.com/questions/24150440/unable-to-follow-the-intuition-behind-minimum-edit-distance/24151217#24151217 – Pierre 2014-08-28 14:42:39

相關問題