0

我有一個電子表格,其中包含地址,名稱,IBAN,電子郵件等數值,並且想要識別客戶上次購物時的情況。模糊標識指紋

問題是:有些字段包含拼寫錯誤,其他字段有意輸入錯誤。

在GitHub上,幾個庫如https://github.com/seatgeek/fuzzywuzzyhttps://github.com/seamusabshere/fuzzy_matchhttps://github.com/atom/fuzzaldrin可用於基於單個和可比較的列執行模糊搜索。但我想結合多個領域 - 這聽起來像是一個常見問題,我希望找到現有的解決方案。

你能爲這樣的問題推薦方法嗎?有沒有現有的項目,我缺少這樣的問題? 在所有字段上的常規字符串距離通常足夠好嗎?

回答

1

我在你的其他問題中提到過它,但是dedupe python librarydoes what you want

基本上,它計算一對行中每個字段之間的距離,然後學習最優權重以將這些距離組合成單個記錄對得分。