我們有一個包含10000個未分類數據記錄的表,我想根據文本相似性或某些特徵等特定屬性對它們進行分類。數據分類
例如 考慮單個列包含姓名,電話號碼和性別
現在我有一個具有單一的實體名稱,電話號碼,電子郵件指數。我要標記適當類型的索引IDS
表A(欄表)
id column_data index_id
1 abc
2 male
3 +1298312123
4 pqr
5 +1283711231
6 female
7 +1231231112
8 male
9 xyz
表B(索引表)
id index_name
1 name
2 phone number
3 email
所以,我要標記的列所有姓名,電話號碼和性別與單一index_id以便於識別數據。
P.S我用這些數據作爲演示,我們有成千上萬的數據和我們想分類的1000個索引?
這樣做的最佳方法是什麼?
除非你要申請機器學習在這裏,分類,並通過數據循環....你到目前爲止嘗試過什麼? –
我們嘗試過字符串比較。但是,數據的完整性在一定程度上不能被驗證。我們使用Jaro Winkler算法進行字符串比較。 –
因此,使用機器學習,給它一堆例子和正確的分類,以便學習如何以高成功率進行分類的規則。 –