2016-04-27 145 views
0

我試圖評估在WEKA中使用10倍CV的分類器的性能。我有32,000個記錄分爲三個不同的類,「po」,「ng」,「ne」。 po:〜950 ng:〜1200 ne:〜30000WEKA分類器評估

我應該如何分割執行CV的數據集?我是否正確地認爲,對於每個班級,我應該有大致相同的記錄數量,以防止對「ne」班級進行不公平的加權?

回答

2

首先,不需要你擁有相等的號碼。的案例在你的課堂上。並非所有數據集均衡。是的,它可能會給出不切實際的答案。數據集中的不平衡是一個普遍的現象,但也有少數的策略來處理它 - :

1)重採樣數據集

Undersampling-刪除多數類的記錄

Oversampling-添加記錄在少數類

您可以使用SMOTE算法爲您做。

2)性能度量

某些指標像卡帕(或科恩kappa)可以工作,其中的分類的精度是通過在數據的類的不平衡標準化大。

3)成本敏感分類 Weka中有CostSensitiveClassifier,它可以包含任何分類和應用自定義懲罰矩陣小姐分類。 但是這裏面臨的挑戰是如何確定成本,因爲成本應該依賴於域而不依賴於數據。

在交叉驗證的情況下,我發現這個鏈接是有用的。 http://www.marcoaltini.com/blog/dealing-with-imbalanced-data-undersampling-oversampling-and-proper-cross-validation

希望它有幫助。