分類預測錯誤結果scikit學習

我已經從數據集中生成了模型，並試圖根據cohen_kappa分數和預測準確性找到最佳算法。我針對各種算法運行它，因爲我將得到的數據類型不知道，所以通過比較它們的kappa和準確性來找到最佳算法。我的數據交叉驗證10倍。分類預測錯誤結果scikit學習

我在Random Forest，Decision Tree，SGDClassifier，Perceptron，Passive Aggressive，Logistic Regression，Gradient Boosting，Naive Bayes，KNeighbors之間做了比較。

對於我的例子中，我得到了隨機森林作爲與Kappa值= 1，精度等級最好的算法= 0.94

我的分類是2類分類中包含RESPONSETIME> 200

條件現在，當我嘗試運行預測，對於一些因變量值，我得到了正確的預測，但對於一些它是完全錯誤的。

我嘗試了所有不同的算法，但預測結果非常不一致。

謝謝

來源

2017-07-17 newToML

你能上傳你的數據嗎？ – sera

附上我的樣本數據之一。但是對於Random Forest，這個函數的kappa = 0，準確率爲0.97。 – newToML

對不起，在完成我的回覆之前點擊進入。我附上了一個樣本數據。但是對於Random Forest，這個函數的kappa = 0，準確率爲0.97。附加我用來生成模型的樣本數據文件。我試圖在kappa值爲1時重新生成數據集。使用此數據集，我可以得到正確的數據集輸入預測值，但對於不同的輸入數據則會出現錯誤的預測值。附加所有3個arff文件。 – newToML

你必須仔細觀察錯誤預測的特徵值。可能是你的數據集中有矛盾的數據。例如，如果您有這樣的觀察和標籤，無論您嘗試過多麼困難，您如何交叉驗證或堆疊算法，您都永遠無法獲得100％的準確性。 75％的準確率是這裏的最高分。

0 => 0 
0 => 0 
0 => 0 
0 => 1 <- this sample have wrong label 
1 => 1 
1 => 1 
1 => 1 
1 => 0 <- this sample have wrong label

來源

2017-07-19 13:11:10 CrazyElf

分類預測錯誤結果scikit學習

回答

相關問題