2017-01-25 11 views
2

我們正在開發Record linkage項目。 我們從所有像哈羅溫克勒的Levenshtein,N-革蘭,Damerau-的Levenshtein,的Jaccard指數,索倫森-骰子使用字符串相似性技術的記錄鏈接

說的標準技術的觀察奇怪的行爲, 字符串1 = MINI GRINDER KIT
字符串2 = Weiler 13001迷你研磨機配件套件,用於小直角研磨機
字符串3 =密爾沃基視頻內窺鏡,旋轉檢測範圍,系列:M-SPECTOR 360,2.7英寸640 x 480像素高分辨率LCD,塑料,黑色/紅色

在上述情況下,字符串1和字符串2相關的所有方法的得分如下所示。
哈羅溫克勒 - > 0.391666651
的Levenshtein - > 75
的n-gram, - > 0.9375
Damerau - > 75
的Jaccard指數 - > 0
索倫森-骰子 - > 0
餘弦 - > 0

但是,字符串1和字符串3並不相關,但距離方法給出了非常高的分數。
哈羅溫克勒 - > 0.435714275
的Levenshtein - > 133
的n-gram, - > 0.953571439
Damerau - > 133
的Jaccard指數 - > 1
索倫森-骰子 - > 0
餘弦 - > 0

任何想法。?

回答

1

所有距離計算得分都區分大小寫。因此,把所有這些都歸入同一個案例。然後你可以看到適當的分數計算。

0

我相信你的目標是檢查兩個產品是否相同。這些數據是我猜想的不同來源,在這種數據的情況下,你需要找出哪些值得比較的最重要的提及?!品牌名稱,規格等...

這些指標遵循非常粗略的相似性概念,不要只是像這樣提供數據。

因此,先清理(刪除標點符號,非重要詞語),標記化(分開單個單詞句子),那麼也許你可以使用fuzzywuzzy來幫助找到更好的匹配。