機器學習 - 現場映射

我是一個完整的初學者機器學習，所以請原諒我的一般問題。機器學習 - 現場映射

我想從隨機數據集的列名映射到已知數據集的列。例如，列名'image_link'需要匹配隨機數據集，其中相同的列名可以是'圖像鏈接'，然後另一個可以是'img_url'。

我有一個大的數據集的每個列名

我相信機器學習是有可能幫助這一點，並開始尋找到這種不同的變化。我用python做了一些機器學習，主要是我覺得不適合這個問題的線性迴歸。

我已經通過谷歌做了很多研究，看看我能否得到類似的東西的任何例子，但我無法找到很多。任何人都可以幫助我，並告知我是否應該使用機器學習來解決這個問題，如果有的話，是否有任何特定的機器學習技術可能適合這個問題，所以我知道我的研究有什麼方向。

任何幫助，將不勝感激。

編輯**

更多的研究後，我有種感覺像一個分類是去也許使用SVM或樸素貝葉斯的方式？

我也創建了一個非常基本的數據集，但準備處理這種數據的最佳方法是什麼？

-------------------------------------------------- 
| **Category**  |  **Term**   | 
-------------------------------------------------- 
|  id    |   SKU   | 
-------------------------------------------------- 
|  id    |   id    | 
-------------------------------------------------- 
|  id    |  productID   | 
-------------------------------------------------- 
|  link    |  productLink  | 
-------------------------------------------------- 
|  link    |   URL   | 
-------------------------------------------------- 
|  link    |  link   | 
-------------------------------------------------- 
| image_large  |  Image   | 
-------------------------------------------------- 
| image_large  |  ImageMedium  | 
-------------------------------------------------- 
| image_large  |  image_link   | 
-------------------------------------------------- 
| image_thumb  |  ImageSmall   | 
-------------------------------------------------- 
| image_thumb  |  Image   | 
-------------------------------------------------- 
| image_thumb  | image link   | 
--------------------------------------------------

來源

2017-08-03 Neil

我認爲你可以使用Levenshtein distance，它測量單詞和短語之間的差異或距離。 python和R有很多實現。您可以將unkwon列名稱分配給更接近或已知類似規則的已知密鑰。

您還可以檢查here

來源

2017-08-03 18:45:54 RZRKAL

謝謝您的回答:)我已經使用了Levenshtein距離實現模糊搜索。問題是我們也可能有'標題'這樣的東西，也可能有'名稱'或'產品'等其他列名稱，這將失敗使用此方法。 – Neil

機器學習 - 現場映射

回答

相關問題