如何將機器學習應用於模糊匹配

假設我有一個MDM系統（主數據管理），其主要應用是檢測和防止重複記錄。如何將機器學習應用於模糊匹配

每當銷售代表進入系統中的新客戶時，我的MDM平臺會對現有記錄進行檢查，計算一對單詞或短語或屬性之間的Levenshtein或Jaccard或XYZ距離，考慮權重和係數以及輸出相似度分數等等。

您的典型模糊匹配場景。

我想知道是否有意義應用機器學習技術來優化匹配輸出，即找到最大精度的重複。
而它最有意義的地方在哪裏。

優化屬性的權重？
通過預測匹配結果來增加算法的置信度？
瞭解否則我會配置到算法中的匹配規則？
別的東西？

還有關於這個話題的this excellent answer，但我不太清楚這個傢伙是否真的使用了ML。

另外我的理解是，加權模糊匹配已經是一個很好的解決方案，甚至可能從財務角度來看，因爲無論何時您部署這樣的MDM系統，您都必須進行一些分析和預處理，無論是手動編碼匹配規則或訓練ML算法。

所以我不確定ML的加入會代表一個重要的價值主張。

任何想法表示讚賞。

來源

2017-04-12 TXV

我的直覺是，你將獲得的增量收益並不合理。有趣的是，使用自然語言處理/理解在搜索可能的重複項時提供額外的上下文，但這不會是一個小項目！ – ImDarrenG

如果你確實追求這個項目，你需要注意的一件事就是你的任務本質上是二元結果（匹配vs不匹配），再加上潛在的不平衡數據集（比匹配更多的不匹配）。你可能會得到一臺看起來非常準確的機器，但實際上只是告訴你你已經知道了什麼。 – ImDarrenG

你在談論過度訓練集，我想。這是潛在的問題之一，使我不敢在這樣的系統中引入ML。 – TXV

使用機器學習的主要優點是節省時間。

在給定足夠時間的情況下，您很可能會調整權重並提出對您的特定數據集非常有用的匹配規則。機器學習方法可能難以超越爲特定數據集定製的手工製作系統。

但是，這可能需要幾天時間才能手工製作出好的匹配系統。如果您使用現有ML作爲匹配工具，如Dedupe，那麼可以在一小時內學習好的權重和規則（包括設置時間）。

因此，如果您已經構建了一個在您的數據上表現良好的匹配系統，則可能不值得對ML進行調查。但是，如果這是一個新的數據項目，那麼它幾乎肯定會是。

來源

2017-04-14 17:26:48 fgregg

是的，我有一個可以在不同數據集上工作的匹配系統。我會檢查出重複。在一個側面說明中，我不明白爲什麼我的問題是downvoted，所以謝謝你花時間回答。 – TXV

傳統上，模糊記錄匹配軟件遭受需要巨大的用戶參與項目參數化和文書審查。要求用戶提供各種輸入參數和閾值，以提供機器學習的匹配和不匹配的例子。在這兩種情況下，大量的用戶參與和專業知識是成功分析的先決條件。使用無監督機器學習的主要價值在於讓軟件自動解決問題，無需用戶參與。至少有一個這樣的模糊匹配軟件利用機器學習，被稱爲「ReMaDDer」：http://remaddersoft.wixsite.com/remadder

來源

2017-07-23 07:31:05 zlatko

如何將機器學習應用於模糊匹配

回答

相關問題