2011-06-10 66 views
0

我正在查找重複記錄。我有一個屬性表,包括街道,號碼,城市,州,縣和郵編。他們根據位置進行地理編碼,但數據中有一些漏洞。問題是如果他們犯了一個簡單的輸入錯誤或忽略某些字段,他們將不會出現匹配。全文地址匹配

截至目前,直線比較和LIKE並沒有真正做得很好。但是Jaro Winkler和類似的編輯距離算法運行時性能極差。

+0

是的,聽起來是正確的。還要看看levenshtein距離公式。幾年前,爲模糊字符串匹配實現了其中一個。非常適合將請求與現有數據進行匹配,但確實需要人工干預。 – Fosco 2011-06-10 17:03:20

+0

如果它們是美國地址,則可以使用USPS地址標準化API對其進行標準化:http://www.usps.com/webtools/address.htm – krubo 2011-06-11 17:14:33

回答

0

SmartyStreets提供重複數據刪除作爲其地址驗證過程的一部分。只需將數據上傳到分隔文本文件中,並將重複項標記在您下載的output file上。對於每個您處理的文件總是有一個免費的預覽版,所以您在對結果滿意之前不必購買任何內容。我是SmartyStreets的軟件開發人員,並幫助編寫應用程序。我對它的功能和易用性都很滿意。我們也有一個API您可以使用,但重複數據刪除將是您的責任(只需比較完整的12位交付點條形碼(用作地址的唯一標識符))。