1
在大約5000萬個樣本的均衡訓練數據上使用scikit-learn(50%一個類,50%另一個,間隔(0,1 )),到目前爲止我所能夠嘗試的所有分類器(Linear/LogisticRegression,LinearSVC,RandomForestClassifier,...)都顯示出一個奇怪的行爲:Scikit-learn:假陽性和假陰性之間強烈的不平衡
當對訓練數據進行測試時,假陽性的百分比是遠低於假陰性(fnr)的百分比。當爲了增加假陽性率(fpr)手動糾正截距時,準確度實際上有了很大提高。
爲什麼分類算法找不到最接近最佳的截距(我猜想或多或少處於fpr = fnr)?
我有類似的問題,沒有足夠的fnr或tnr。 – Moondra