用J48和IBk（KNN）算法進行分類

我給出了許多不同類型蘑菇的記錄。這些應該分爲食用和有毒。分類必須用k最近鄰（1）和J48來執行。用J48和IBk（KNN）算法進行分類

這兩種算法都顯示99.88％的精度。與我相關的是假陽性率。 J48的比率爲0.3％，KNN爲0％。所以我會說KNN更適合選擇的問題。

但是，我不知道答案爲什麼。有沒有一個普遍的答案，爲什麼KNN比J48有一些記錄是無聊的？

第二件事是我應該使用10倍交叉驗證。那是什麼呢？

在此先感謝

是否有一個一般的答案，爲什麼KNN是一些記錄比J48 bether？

不是。它強烈依賴於數據集，這兩種算法的設置和評估方式（您確實使用單獨的培訓和測試集，是不是？）。

10倍交叉驗證的意思是：你在10分割你的數據集大小相等的「褶皺」，然後爲每個褶皺我在所有其他9倍

評估

並取平均準確度。請參閱Wikipedia或任何有關機器學習的書籍。

2012-01-13 14:48:26

不，我只用了一個數據集（* .arff-File與屬性和類）。 – user1147739 2012-01-13 15:20:13

@ user1147739：那麼你的結果是完全無效的。您應始終有單獨的培訓和測試集以供評估，或使用交叉驗證。再次看到任何關於機器學習的書。 – 2012-01-13 15:22:11

但是我怎麼說呢，我用了10倍交叉驗證。那麼我的結果不是ivalid？是的，我會閱讀... ;-) – user1147739 2012-01-13 15:38:39

回答