-2

我有CSV problem.csv 3個數據集與屬性:製作預測用戶是否就能解決的事,或不

  1. ID
  2. 水平
  3. 準確性
  4. solved_count
  5. error_count
  6. tag1
  7. tag2
  8. TAG3
  9. TAG4
  10. tag5

Submission.csv與attibutes:

  • USER_ID
  • PROBLEM_ID
  • solved_status

user.csv與

  • USER_ID
  • solved_count
  • 嘗試

我想現在的測試數據集用戶是否就能解決問題或無法預知。

我在考慮應用樸素貝葉斯分類。但我不知道如何解決這個問題。我想我必須在Weka或sckit學習中使用通用數據集。給我一些關於如何解決這個問題的想法。

回答

1

如果您想使用weka,則應將所有數據集合在一起。 爲了得到一個數據與屬性設置如下:

  • USER_ID
  • ID
  • 水平
  • 準確性
  • solved_count
  • ERROR_COUNT
  • TAG1
  • TAG2
  • TAG3
  • TAG4
  • tag5
  • solved_count
  • 嘗試
  • solved_status(這將是你的類)

這項工作,你必須加載數據設置爲WEKA Explorer或Java中後碼。 您必須根據您的數據集建立分類器。 然後,您可以預測您的新實例,其中,resolved_status將爲空。

+0

我已經加入了表格。你建議哪種算法? –

+0

您可以選擇不同的分類器。最常見的是j48,隨機森林,樸素貝葉斯,knn,svn。檢查所有這些,並採取最好的結果。 –