0
我想從語料庫中提取類似單詞。相似性基於字符串。即,當兩個單詞串高度相似時,兩個單詞被提取爲相似單詞。例如,如果語料庫包含:Aras,bahro,arasis,adkpo,bah,aras sd,kio。從語料庫中提取類似單詞
近義詞:
1阿拉,arasis,阿拉SD
2- bahro,呸
如何解決這個問題呢? 謝謝。
我想從語料庫中提取類似單詞。相似性基於字符串。即,當兩個單詞串高度相似時,兩個單詞被提取爲相似單詞。例如,如果語料庫包含:Aras,bahro,arasis,adkpo,bah,aras sd,kio。從語料庫中提取類似單詞
近義詞:
1阿拉,arasis,阿拉SD
2- bahro,呸
如何解決這個問題呢? 謝謝。
Levenshtein distance是衡量兩個單詞序列之間差異的度量標準,也許您可以採取一系列單詞並計算距離以瞭解它們是否相似。
我會添加一個類似這樣的參考:http://stackoverflow.com/questions/10136470/unsupervised-clustering-with-unknown-number-of-clusters – Yasen 2014-08-28 09:11:26
你可以檢查我的答案在類似的問題:http ://stackoverflow.com/questions/24150440/unable-to-follow-the-intuition-behind-minimum-edit-distance/24151217#24151217 – Pierre 2014-08-28 14:42:39