我們正在開發Record linkage項目。 我們從所有像哈羅溫克勒的Levenshtein,N-革蘭,Damerau-的Levenshtein,的Jaccard指數,索倫森-骰子使用字符串相似性技術的記錄鏈接
說的標準技術的觀察奇怪的行爲, 字符串1 = MINI GRINDER KIT
字符串2 = Weiler 13001迷你研磨機配件套件,用於小直角研磨機
字符串3 =密爾沃基視頻內窺鏡,旋轉檢測範圍,系列:M-SPECTOR 360,2.7英寸640 x 480像素高分辨率LCD,塑料,黑色/紅色
在上述情況下,字符串1和字符串2相關的所有方法的得分如下所示。
哈羅溫克勒 - > 0.391666651
的Levenshtein - > 75
的n-gram, - > 0.9375
Damerau - > 75
的Jaccard指數 - > 0
索倫森-骰子 - > 0
餘弦 - > 0
但是,字符串1和字符串3並不相關,但距離方法給出了非常高的分數。
哈羅溫克勒 - > 0.435714275
的Levenshtein - > 133
的n-gram, - > 0.953571439
Damerau - > 133
的Jaccard指數 - > 1
索倫森-骰子 - > 0
餘弦 - > 0
任何想法。?