2012-01-13 441 views
1

我給出了許多不同類型蘑菇的記錄。這些應該分爲食用和有毒。分類必須用k最近鄰(1)和J48來執行。用J48和IBk(KNN)算法進行分類

這兩種算法都顯示99.88%的精度。與我相關的是假陽性率。 J48的比率爲0.3%,KNN爲0%。所以我會說KNN更適合選擇的問題。

但是,我不知道答案爲什麼。有沒有一個普遍的答案,爲什麼KNN比J48有一些記錄是無聊的?

第二件事是我應該使用10倍交叉驗證。那是什麼呢?

在此先感謝

回答

1

是否有一個一般的答案,爲什麼KNN是一些記錄比J48 bether?

不是。它強烈依賴於數據集,這兩種算法的設置和評估方式(您確實使用單獨的培訓和測試集,是不是?)。

10倍交叉驗證的意思是:你在10分割你的數據集大小相等的「褶皺」,然後爲每個褶皺我在所有其他9倍

  • 評估

    • 列車on fold i

    並取平均準確度。請參閱Wikipedia或任何有關機器學習的書籍。

  • +0

    不,我只用了一個數據集(* .arff-File與屬性和類)。 – user1147739 2012-01-13 15:20:13

    +0

    @ user1147739:那麼你的結果是完全無效的。您應始終有單獨的培訓和測試集以供評估,或使用交叉驗證。再次看到任何關於機器學習的書。 – 2012-01-13 15:22:11

    +0

    但是我怎麼說呢,我用了10倍交叉驗證。那麼我的結果不是ivalid? 是的,我會閱讀... ;-) – user1147739 2012-01-13 15:38:39