Scikit-learn：假陽性和假陰性之間強烈的不平衡

在大約5000萬個樣本的均衡訓練數據上使用scikit-learn（50％一個類，50％另一個，間隔（0,1 ）），到目前爲止我所能夠嘗試的所有分類器（Linear/LogisticRegression，LinearSVC，RandomForestClassifier，...）都顯示出一個奇怪的行爲：Scikit-learn：假陽性和假陰性之間強烈的不平衡

當對訓練數據進行測試時，假陽性的百分比是遠低於假陰性（fnr）的百分比。當爲了增加假陽性率（fpr）手動糾正截距時，準確度實際上有了很大提高。

爲什麼分類算法找不到最接近最佳的截距（我猜想或多或少處於fpr = fnr）？

來源

2016-11-07 Radio Controlled

我有類似的問題，沒有足夠的fnr或tnr。 – Moondra

我想這個想法是沒有「最優」的單一定義;對於某些應用程序，您可以容忍比假陰性更多的誤報（例如，在您不想錯過陽性的情況下檢測欺詐或疾病），而對於其他應用程序，誤報更爲嚴重（預測設備故障，犯罪或其他否則採取行動的代價昂貴）。默認情況下，predict只是選擇0.5作爲閾值，這通常不是您想要的，您需要考慮應用程序，然後查看ROC曲線和增益/提升圖表，以確定要設置預測閾值的位置。

來源

2016-11-07 22:04:41 maxymoo

Scikit-learn：假陽性和假陰性之間強烈的不平衡

回答

相關問題