1

在大約5000萬個樣本的均衡訓練數據上使用scikit-learn(50%一個類,50%另一個,間隔(0,1 )),到目前爲止我所能夠嘗試的所有分類器(Linear/LogisticRegression,LinearSVC,RandomForestClassifier,...)都顯示出一個奇怪的行爲:Scikit-learn:假陽性和假陰性之間強烈的不平衡

當對訓練數據進行測試時,假陽性的百分比是遠低於假陰性(fnr)的百分比。當爲了增加假陽性率(fpr)手動糾正截距時,準確度實際上有了很大提高。

爲什麼分類算法找不到最接近最佳的截距(我猜想或多或少處於fpr = fnr)?

+0

我有類似的問題,沒有足夠的fnr或tnr。 – Moondra

回答

0

我想這個想法是沒有「最優」的單一定義;對於某些應用程序,您可以容忍比假陰性更多的誤報(例如,在您不想錯過陽性的情況下檢測欺詐或疾病),而對於其他應用程序,誤報更爲嚴重(預測設備故障,犯罪或其他否則採取行動的代價昂貴)。默認情況下,predict只是選擇0.5作爲閾值,這通常不是您想要的,您需要考慮應用程序,然後查看ROC曲線和增益/提升圖表,以確定要設置預測閾值的位置。