我正在尋找一些與MS SQL Server兼容的重複數據刪除軟件。我有一個相當廣泛和雜亂的表格,其中包含來自世界各地的所有不同語言的地址。該表設置爲處理作爲父/子記錄的模糊,因此需要處理匹配的一些功能(即,不僅僅是刪除模糊)。關於重複數據刪除軟件的建議?
編輯:這裏的結構
ParentID | MasterID | PropertyName | Address1 | Address2 | PostalCode | City | StateProvinceCode | CountryCode | PhoneNumber
的MasterID
是爲每個記錄是唯一的。
ParentID
包含MasterID
爲每個條目的父記錄,而父記錄爲MasterID = ParentID
。
CountryCode
是兩個字母ISO國家代碼(不是電話代碼)。
我會用SQL來解決這個問題,它非常適用於重複數據刪除。如果您發佈您的表格結構和標準,我們可能可以幫助您進行查詢。 – JNK
您是否正在尋找的不僅僅是匹配相同的地址,即您是否想考慮123 N. Main Street作爲123 North Main St.的重複? – hatchet
請參閱http://stackoverflow.com/questions/291728/open-source-address-scrubber – hatchet