我有一個電子表格,其中包含地址,名稱,IBAN,電子郵件等數值,並且想要識別客戶上次購物時的情況。模糊標識指紋
問題是:有些字段包含拼寫錯誤,其他字段有意輸入錯誤。
在GitHub上,幾個庫如https://github.com/seatgeek/fuzzywuzzy,https://github.com/seamusabshere/fuzzy_match或https://github.com/atom/fuzzaldrin可用於基於單個和可比較的列執行模糊搜索。但我想結合多個領域 - 這聽起來像是一個常見問題,我希望找到現有的解決方案。
你能爲這樣的問題推薦方法嗎?有沒有現有的項目,我缺少這樣的問題? 在所有字段上的常規字符串距離通常足夠好嗎?