2009-11-13 57 views
2

我想找到可能的候選重複像公司名稱和ADDRESSLINE1使用SQL Server 2005的

實例字段的大型數據庫匹配記錄模糊匹配可能重複一個好的SQL策略:

爲了與記錄公司名稱:

  • 「Acme,Inc.」

我想爲我的查詢與這些COMPANYNAME值儘可能的DUP吐出其他記錄:

  • 「Acme公司」
  • 「極致,收編」
  • 「Acme的」

我知道如何做連接,相關的子查詢等做拉動我想要的數據集的機制。我知道這已經在這裏覆蓋。我有興趣聽到關於進行模糊搜索的最佳方式的想法 - 我應該使用全文索引還是soundex函數或其他我沒有意識到的過程? (我正在使用SQL Server 2005)

任何幫助表示讚賞!

回答

1

我會推薦使用SSIS任務來定期清理數據。 SSIS具有模糊匹配運算符,並且有第三方提供者提供更強大的組件。在話題有些文章:

如果預算許可和經營規模是值得的,你甚至可以考慮一個MDS服務器:SQL Server 2008 R2 Master Data Services

+0

我用這個和它的作品真的很好尋找可能的重複 – HLGEM 2009-12-31 16:24:14