使用字符串相似性技術的記錄鏈接

我們正在開發Record linkage項目。我們從所有像哈羅溫克勒的Levenshtein，N-革蘭，Damerau-的Levenshtein，的Jaccard指數，索倫森-骰子使用字符串相似性技術的記錄鏈接

說的標準技術的觀察奇怪的行爲，字符串1 = MINI GRINDER KIT
字符串2 = Weiler 13001迷你研磨機配件套件，用於小直角研磨機
字符串3 =密爾沃基視頻內窺鏡，旋轉檢測範圍，系列：M-SPECTOR 360,2.7英寸640 x 480像素高分辨率LCD，塑料，黑色/紅色

在上述情況下，字符串1和字符串2相關的所有方法的得分如下所示。
哈羅溫克勒 - > 0.391666651
的Levenshtein - > 75
的n-gram， - > 0.9375
Damerau - > 75
的Jaccard指數 - > 0
索倫森-骰子 - > 0
餘弦 - > 0

但是，字符串1和字符串3並不相關，但距離方法給出了非常高的分數。
哈羅溫克勒 - > 0.435714275
的Levenshtein - > 133
的n-gram， - > 0.953571439
Damerau - > 133
的Jaccard指數 - > 1
索倫森-骰子 - > 0
餘弦 - > 0

任何想法。？

來源

2017-01-25 Nischay

所有距離計算得分都區分大小寫。因此，把所有這些都歸入同一個案例。然後你可以看到適當的分數計算。

來源

2017-03-07 11:35:34 jeevitesh

我相信你的目標是檢查兩個產品是否相同。這些數據是我猜想的不同來源，在這種數據的情況下，你需要找出哪些值得比較的最重要的提及？！品牌名稱，規格等...

這些指標遵循非常粗略的相似性概念，不要只是像這樣提供數據。

因此，先清理（刪除標點符號，非重要詞語），標記化（分開單個單詞句子），那麼也許你可以使用fuzzywuzzy來幫助找到更好的匹配。

來源

2017-07-20 06:27:49 jaknap32

使用字符串相似性技術的記錄鏈接

回答

相關問題