2017-08-03 78 views
1

我是一個完整的初學者機器學習,所以請原諒我的一般問題。機器學習 - 現場映射

我想從隨機數據集的列名映射到已知數據集的列。例如,列名'image_link'需要匹配隨機數據集,其中相同的列名可以是'圖像鏈接',然後另一個可以是'img_url'。

我有一個大的數據集的每個列名

我相信機器學習是有可能幫助這一點,並開始尋找到這種不同的變化。我用python做了一些機器學習,主要是我覺得不適合這個問題的線性迴歸。

我已經通過谷歌做了很多研究,看看我能否得到類似的東西的任何例子,但我無法找到很多。任何人都可以幫助我,並告知我是否應該使用機器學習來解決這個問題,如果有的話,是否有任何特定的機器學習技術可能適合這個問題,所以我知道我的研究有什麼方向。

任何幫助,將不勝感激。

編輯**

更多的研究後,我有種感覺像一個分類是去也許使用SVM或樸素貝葉斯的方式?

我也創建了一個非常基本的數據集,但準備處理這種數據的最佳方法是什麼?

-------------------------------------------------- 
| **Category**  |  **Term**   | 
-------------------------------------------------- 
|  id    |   SKU   | 
-------------------------------------------------- 
|  id    |   id    | 
-------------------------------------------------- 
|  id    |  productID   | 
-------------------------------------------------- 
|  link    |  productLink  | 
-------------------------------------------------- 
|  link    |   URL   | 
-------------------------------------------------- 
|  link    |  link   | 
-------------------------------------------------- 
| image_large  |  Image   | 
-------------------------------------------------- 
| image_large  |  ImageMedium  | 
-------------------------------------------------- 
| image_large  |  image_link   | 
-------------------------------------------------- 
| image_thumb  |  ImageSmall   | 
-------------------------------------------------- 
| image_thumb  |  Image   | 
-------------------------------------------------- 
| image_thumb  | image link   | 
-------------------------------------------------- 

回答

0

我認爲你可以使用Levenshtein distance,它測量單詞和短語之間的差異或距離。 pythonR有很多實現。您可以將unkwon列名稱分配給更接近或已知類似規則的已知密鑰。

您還可以檢查here

+0

謝謝您的回答:)我已經使用了Levenshtein距離實現模糊搜索。問題是我們也可能有'標題'這樣的東西,也可能有'名稱'或'產品'等其他列名稱,這將失敗使用此方法。 – Neil