-3
A
回答
1
首先,您應該始終使用cross validation.來評估算法爲了將數據分解爲訓練集和驗證集,請使用第一組訓練分類器,然後使用後者來獲得分類器的近似誤差。
也就是說,通常你最終會測試不同的分類器和算法。沒有辦法確定哪種方法會起作用。當然,如果您對數據背後的含義有更深入的瞭解,它會讓事情變得更輕鬆。您可能會將分類分爲不同的階段,或以某種方式修改算法以更好地適應問題。基本上所有的東西都是允許的,例如,如果你的值分散在0-100的範圍內,但大多數都在0-10或90-100範圍內,你可能想要檢查是否有意義做出第一個決定(像一個決策殘塊),你檢查是否0=<x<=50
或100>=x>50
,然後使用兩個不同的分類器。
根本不可能給出任意問題的一般建議。 「最佳」選擇實際上取決於數據的特定性質。
對於某些分類器的內核也是如此。如果您對數據的性質有所瞭解,則可以創建針對您的問題量身定製的自定義內核函數。
您提到的算法以及SVM或adaboost等算法在很多方面有所不同。一些分類器培訓便宜,但花費更多來評估(kNN),而其他分類器培訓昂貴,但評估非常便宜。
就像我說過的,你可能最終會測試很多東西。只要確保您使用交叉驗證來獲得分類器性能的估計值。僅僅看訓練期間的分類錯誤是不夠的。
相關問題
- 1. 最適合的調度算法
- 2. 最新的分類算法
- 3. 哪種聚類算法最適合聚類一維特徵?
- 4. 選擇分類法,
- 5. 哪種哈希算法最適合HMAC
- 6. WCF - 選擇最適合的綁定/編碼器
- 7. 對法律文件圖片進行分類最合適的分類算法是什麼?
- 8. phpexcel適合選擇
- 9. 最優分類算法
- 10. 逆向概率選擇(進化算法的逆適應選擇)
- 11. 選擇合適的循環
- 12. 選擇合適的工具
- 13. 選擇合適的許可
- 14. 最簡單的功能選擇算法
- 15. 選擇最佳2人的算法
- 16. 無法創建合適的CSS選擇器
- 17. 無法創建合適的選擇器來抓取名稱
- 18. Kafka的分區選擇算法
- 19. 帶分區的選擇算法
- 20. 算法:選擇一個集合
- 21. 選擇合適的計算策略,以實現在Android的
- 22. 選擇正確的分類算法。線性還是非線性?
- 23. 如何用差分進化算法選擇最佳參數
- 24. 計算最適合橢圓的線條
- 25. KNN分類器算法不適用於所有情況
- 26. 算法涉及分區和選擇
- 27. 在分類中的scikit學習改裝/部分適合選項
- 28. listview與imagelist不適合多個選擇在custome適配器
- 29. 結合CSS選擇器*與最後一個類型
- 30. krukshal的算法或Prims算法哪個更適合尋找最小生成樹?
你希望得到什麼結果?你希望挖掘的數據是什麼?這將極大地影響你對分類器的選擇。根據我的理解,你有TF-IDF,它基本上提取了你產品描述的重要部分。第二個文件,你說的是什麼意思?它是一串字符串,還是一個數字描述符(即協變和平均值)。 – GameOfThrows
決定哪一個最好的常用方法是全部使用它們,並根據保留測試集測量結果。根據您對分類器的預期用途選擇測量標準(例如,分類中的錯誤是否容易修復?)您可以憑藉經驗獲得可能表現良好的分類器的感覺。如果你有時間,並且最好的意思是「無論如何都是最準確的」,那麼最好的辦法可能是多個不同分類器的集合。 –
有些情況下貝葉斯分類的表現會比K-最近鄰更好,特別是當數據特徵非常稀疏時(即它們不重疊),一個例子就是年齡與你參加的學校,但不要期望它表現更好,其主要優勢在於速度 – GameOfThrows