2017-06-21 124 views
0

我對數據挖掘,我們從kaggle給CSV數據的一所學校項目的工作(這是怎樣的數據看起來(2線出6970)):轉換CSV到ARFF

4,1970,Female,150,DomesticPartnersKids,Bachelor's Degree,Democrat,,Yes,No,No,No,Yes,Public,No,Yes,No,Yes,No,No,Yes,Science,Study first,Yes,Yes,No,No,Receiving,No,No,Pragmatist,No,No,Cool headed,Standard hours,No,Happy,Yes,Yes,Yes,No,A.M.,No,End,Yes,No,Me,Yes,Yes,No,Yes,No,Mysterious,No,No,,,,,,,,,,Mac,Yes,Cautious,No,Umm...,No,Space,Yes,In-person,No,Yes,Yes,No,Yay people!,Yes,Yes,Yes,Yes,Yes,No,Yes,,,,,,,,,,,,,,,,,No,No,No,Only-child,Yes,No,No 
5,1997,Male,75,Single,High School Diploma,Republican,,Yes,Yes,No,,Yes,Private,No,No,No,Yes,No,No,Yes,Science,Study first,,Yes,No,Yes,Receiving,No,Yes,Pragmatist,No,Yes,Cool headed,Odd hours,No,Right,Yes,No,No,Yes,A.M.,Yes,Start,Yes,Yes,Circumstances,No,Yes,No,Yes,Yes,Mysterious,No,No,Tunes,Technology,Yes,Yes,Yes,Yes,No,Supportive,No,PC,No,Cautious,No,Umm...,No,Space,No,In-person,No,No,Yes,Yes,Grrr people,Yes,No,No,No,No,No,No,Yes,No,No,Yes,No,Own,Pessimist,Mom,No,No,No,No,Nope,Yes,No,No,No,Yes,No,Yes,No,Yes,No 

和我們必須得到.arff格式才能在weka中使用。我manualy輸入的報頭(107個屬性)

@ATTRIBUTE user_id NUMERIC 
@ATTRIBUTE yob  NUMERIC 
@ATTRIBUTE gender {Male,Female} 
@ATTRIBUTE income {150,100,75,50,25,10} 
@ATTRIBUTE householdstatus {MarriedKids,Married,DomesticPartnersKids,DomesticPartners,Single,SingleKids} 
@ATTRIBUTE educationlevel {Bachelor's Degree,High School Diploma,Current K-12,Current Undergraduate,Master's Degree,Associate's Degree,Doctoral Degree} 
@ATTRIBUTE party {Democrat,Republican} 
@ATTRIBUTE Q124742 {Yes,No} 
@ATTRIBUTE Q124122 {Yes,No} 

,我得到這個錯誤:

}預計在統計結束閱讀令牌EOL

然後我試圖使用WEKA轉換器,但它給我一個錯誤

values.Read 2數目錯誤,預期1,讀令牌[EOL],第4行問題在線遇到:3

+0

什麼Kaggle項目?如果我能得到數據文件,我會試試看。 – zbicyclist

+0

[鏈接](https://inclass.kaggle.com/c/can-we-predict-voting-outcomes)你的迴應 – candy

回答

1

這是我做的: 從Kaggle,我下載了train.csv(5568實例,最高ID號碼6960)。

我沒有使用轉換器 - 剛剛加載它到了Weka Explorer作爲一個CSV文件。一些問題及其解決方案:

  1. 第3行:「學士學位」的第一個例子。它不喜歡那個單引號(「第3行,第7行,預計108」)。擺脫了所有單引號(在文本編輯器中使用全局替換)。然後我試着再次將它載入Weka。
  2. 的文件不具有CR最後一行,這導致錯誤的末尾(鍵盤上的回車鍵)(「上線5569爲空」)。我又在文本編輯器中添加了一個。然後我將它加載到Weka中,並查看了變量。
  3. YOB(出生年份)丟失約300的情況下,用「NA」填寫。因此,它沒有評估爲字符串或數字。將這些編輯爲空單元格。然後我把它裝入Weka。
  4. 而且,當然,移動爲另一方的類變量(末尾)。我在Weka做過這個。
  5. 保存這個作爲train.arff

  6. 早在加載它,它似乎工作確定。我使用OneR分類器生成了51%的準確度,但您不希望OneR分類器在此處運行良好。我相信你可以做得更好。

注意我沒有做任何手動輸入標題。這一定是需要一段時間的!

祝你好運!

+0

我還沒有得到它的工作我試着用你的方式,我得到了一個錯誤。 https://drive.google.com/open?id=0B6ozOhSRitenRzZDNElMUVBSeFk(這是我到目前爲止所做的鏈接,並且即時獲得錯誤提前結束)。抱歉打擾你,但你能看看文件,並告訴我我哪裏出了錯。 – candy

+0

當我將arff文件的數據部分加載到Excel中時,除了幾條記錄外,它會出現在列DD中。第一個不是第118行 - 你得到的錯誤(當我重複它)在第119行。是否應該在該列中添加問號(以及後面的文件中的類似列)? – zbicyclist

+0

我設法從一開始就做到了這一切enyway非常感謝您的幫助,如果您看到這是我所做的https://drive.google.com/open?id=0B6ozOhSRitenZ3VxLWFFcG1IQ1U – candy