2017-07-17 78 views
0

我已經從數據集中生成了模型,並試圖根據cohen_kappa分數和預測準確性找到最佳算法。我針對各種算法運行它,因爲我將得到的數據類型不知道,所以通過比較它們的kappa和準確性來找到最佳算法。 我的數據交叉驗證10倍。分類預測錯誤結果scikit學習

我在Random Forest,Decision Tree,SGDClassifier,Perceptron,Passive Aggressive,Logistic Regression,Gradient Boosting,Naive Bayes,KNeighbors之間做了比較。

對於我的例子中,我得到了隨機森林作爲與Kappa值= 1,精度等級最好的算法= 0.94

我的分類是2類分類中包含RESPONSETIME> 200

條件現在,當我嘗試運行預測,對於一些因變量值,我得到了正確的預測,但對於一些它是完全錯誤的。

我嘗試了所有不同的算法,但預測結果非常不一致。

謝謝

+0

你能上傳你的數據嗎? – sera

+0

附上我的樣本數據之一。但是對於Random Forest,這個函數的kappa = 0,準確率爲0.97。 – newToML

+0

對不起,在完成我的回覆之前點擊進入。我附上了一個樣本數據。但是對於Random Forest,這個函數的kappa = 0,準確率爲0.97。附加我用來生成模型的樣本數據文件。我試圖在kappa值爲1時重新生成數據集。使用此數據集,我可以得到正確的數據集輸入預測值,但對於不同的輸入數據則會出現錯誤的預測值。附加所有3個arff文件。 – newToML

回答

0

你必須仔細觀察錯誤預測的特徵值。可能是你的數據集中有矛盾的數據。例如,如果您有這樣的觀察和標籤,無論您嘗試過多麼困難,您如何交叉驗證或堆疊算法,您都永遠無法獲得100%的準確性。 75%的準確率是這裏的最高分。

0 => 0 
0 => 0 
0 => 0 
0 => 1 <- this sample have wrong label 
1 => 1 
1 => 1 
1 => 1 
1 => 0 <- this sample have wrong label