2016-12-05 81 views
0

我想在一組約1000個對象中運行一個分類器,每個對象都有6個浮點變量。我已經使用scikit-learn的交叉驗證功能爲幾個不同的模型生成預測值的數組。然後我用sklearn.metrics來計算我的分類器和混淆表的準確性。大多數分類器具有大約20-30%的準確度。以下是SVC分類器的混淆表(精確度爲25.4%)。評估多類分類器性能的好指標是什麼?

enter image description here

由於我是新來的機器學習,我不知道如何解釋這一結果,以及是否有其他好的指標來評估這個問題。直覺上,即使有25%的準確性,並且鑑於分類器有25%的預測是正確的,我相信它至少有些有效,對吧?我如何用統計參數來表達?

回答

0

如果這個表格是一個混淆表,我認爲你的分類器在大多數情況下預測了E類。我認爲你的E類在你的數據集中被過度表示,如果你的類沒有,精度不是一個好的指標 示例如果您有3個類,A,B和C,並且在測試數據集中,如果您的分類器預測了所有時間類A,則類A會被過度表示(90%),您將擁有90%的準確性,

一個很好的指標是使用日誌丟失,迴歸是一個很好的算法,優化這個指標 看到https://stats.stackexchange.com/questions/113301/multi-class-logarithmic-loss-function-per-class

的其他的解決方案,就是對你的小類進行過採樣

0

首先,我發現很難查看混淆表。將它繪製成圖像可以更好地直觀地理解正在發生的事情。

建議您使用單個數字度量標準進行優化,因爲它更簡單快捷。當您發現系統無法達到您的預期效果時,請修改您選擇的指標。

如果您在每個班級中都有相同數量的示例,則準確度通常是一個很好的指標。否則(在這裏似乎是這種情況),我建議使用F1 score,它考慮到您的估算器的precision and recall

編輯:然而,它是由你決定是否約25%的準確性,或任何指標是「足夠好」。如果您正在分類機器人是否應該拍攝一個人,那麼您應該修改算法,但如果您決定是僞隨機數據還是隨機數據,則25%的準確性可能足以證明這一點。