用於分類和聚類的特徵之間的關係

我是機器學習的新手，我有以下問題。假設我對某些數據實施了分類算法，並且識別出了分類算法的最佳特徵組合。如果有一天我從同一個資源獲取數據，而這些資源缺少之前分類任務中的目標特徵，我可以使用最佳的特徵組合直接分類任務嗎？（我知道我可以用我訓練以預測數據的目標模式，但我只是想知道的最佳特性組合是否是分類和聚類算法之間的相同）用於分類和聚類的特徵之間的關係

我已經搜索網站的任何資源，我知道，但我找不到我的問題的答案，有人告訴我，或只是給我一個鏈接？謝謝！

來源

2017-02-11 Nia

我會說是，只要目標的性質在兩種情況下都是相同的。理想情況下，我們需要的是在N空間中彼此正交（垂直）的易處理數量的特徵，以便每個特徵都能最大限度地對預測作出貢獻。

舉一個具體的例子，T恤衫以及它們是大碼還是小碼。你會得到一些數據，這些數據表明在製造過程中存在一些物質收縮，這意味着T恤衫出現有點不規則，並且收縮率在高度和寬度之間變化，但不是很多。數據顯示高度，寬度和顏色，並且您想要決定它們是在大組還是小組。你發現高度和寬度很重要，但顏色不重要，所以你決定用高度和寬度作爲你的分類特徵。

重要的一點是，這兩個特徵已被確定爲最相互正交，應該應用於分類或聚類上下文中。簇的數量仍然是一個要檢查的因素。

來源

2017-02-11 08:56:38

這可能不夠好。

例如，可以分析決策樹或隨機森林以獲得特徵的重要性。但是這並不能告訴你需要什麼樣的預處理（特別是縮放和加權）才能將它們聚類（特別是分類特徵難以使用，任何不連續的或傾斜的都很難）。

此外，數據會隨時間而變化。曾經很重要的功能（例如Facebook喜歡）現在無用。

來源

2017-02-11 21:37:04

用於分類和聚類的特徵之間的關係

回答

相關問題