WEKA分類器評估

我試圖評估在WEKA中使用10倍CV的分類器的性能。我有32,000個記錄分爲三個不同的類，「po」，「ng」，「ne」。 po：〜950 ng：〜1200 ne：〜30000WEKA分類器評估

我應該如何分割執行CV的數據集？我是否正確地認爲，對於每個班級，我應該有大致相同的記錄數量，以防止對「ne」班級進行不公平的加權？

首先，不需要你擁有相等的號碼。的案例在你的課堂上。並非所有數據集均衡。是的，它可能會給出不切實際的答案。數據集中的不平衡是一個普遍的現象，但也有少數的策略來處理它 - ：

1）重採樣數據集

Undersampling-刪除多數類的記錄

Oversampling-添加記錄在少數類

您可以使用SMOTE算法爲您做。

2）性能度量

某些指標像卡帕（或科恩kappa）可以工作，其中的分類的精度是通過在數據的類的不平衡標準化大。

3）成本敏感分類 Weka中有CostSensitiveClassifier，它可以包含任何分類和應用自定義懲罰矩陣小姐分類。但是這裏面臨的挑戰是如何確定成本，因爲成本應該依賴於域而不依賴於數據。

希望它有幫助。

2016-04-28 02:14:14

回答