3

假設我有一個MDM系統(主數據管理),其主要應用是檢測和防止重複記錄。如何將機器學習應用於模糊匹配

每當銷售代表進入系統中的新客戶時,我的MDM平臺會對現有記錄進行檢查,計算一對單詞或短語或屬性之間的Levenshtein或Jaccard或XYZ距離,考慮權重和係數以及輸出相似度分數等等。

您的典型模糊匹配場景。

我想知道是否有意義應用機器學習技術來優化匹配輸出,即找到最大精度的重複。
而它最有意義的地方在哪裏。

  • 優化屬性的權重?
  • 通過預測匹配結果來增加算法的置信度?
  • 瞭解否則我會配置到算法中的匹配規則?
  • 別的東西?

還有關於這個話題的this excellent answer,但我不太清楚這個傢伙是否真的使用了ML。

另外我的理解是,加權模糊匹配已經是一個很好的解決方案,甚至可能從財務角度來看,因爲無論何時您部署這樣的MDM系統,您都必須進行一些分析和預處理,無論是手動編碼匹配規則或訓練ML算法。

所以我不確定ML的加入會代表一個重要的價值主張。

任何想法表示讚賞。

+0

我的直覺是,你將獲得的增量收益並不合理。有趣的是,使用自然語言處理/理解在搜索可能的重複項時提供額外的上下文,但這不會是一個小項目! – ImDarrenG

+1

如果你確實追求這個項目,你需要注意的一件事就是你的任務本質上是二元結果(匹配vs不匹配),再加上潛在的不平衡數據集(比匹配更多的不匹配)。你可能會得到一臺看起來非常準確的機器,但實際上只是告訴你你已經知道了什麼。 – ImDarrenG

+0

你在談論過度訓練集,我想。這是潛在的問題之一,使我不敢在這樣的系統中引入ML。 – TXV

回答

1

使用機器學習的主要優點是節省時間。

在給定足夠時間的情況下,您很可能會調整權重並提出對您的特定數據集非常有用的匹配規則。機器學習方法可能難以超越爲特定數據集定製的手工製作系統。

但是,這可能需要幾天時間才能手工製作出好的匹配系統。如果您使用現有ML作爲匹配工具,如Dedupe,那麼可以在一小時內學習好的權重和規則(包括設置時間)。

因此,如果您已經構建了一個在您的數據上表現良好的匹配系統,則可能不值得對ML進行調查。但是,如果這是一個新的數據項目,那麼它幾乎肯定會是。

+0

是的,我有一個可以在不同數據集上工作的匹配系統。我會檢查出重複。在一個側面說明中,我不明白爲什麼我的問題是downvoted,所以謝謝你花時間回答。 – TXV

0

傳統上,模糊記錄匹配軟件遭受需要巨大的用戶參與項目參數化和文書審查。要求用戶提供各種輸入參數和閾值,以提供機器學習的匹配和不匹配的例子。在這兩種情況下,大量的用戶參與和專業知識是成功分析的先決條件。 使用無監督機器學習的主要價值在於讓軟件自動解決問題,無需用戶參與。 至少有一個這樣的模糊匹配軟件利用機器學習,被稱爲「ReMaDDer」:http://remaddersoft.wixsite.com/remadder