我想從CSV文件導入數據以用於scikit-learn。它具有數字數據分類數據的混合,例如,從CSV導入分類數據到scikit-learn
someValue,color,someOtherValue
1.2,red,55.6
1.9,blue,20.5
3.2,red,16.5
我需要這表示轉換成一個純粹的數值之一,分類數據點被轉換成多個二進制列,例如
someValue,colorIsRed,colorIsBlue,someOtherValue
1.2,1,0,55.6
1.9,0,1,20.5
3.2,1,0,16.5
是否有任何工具,這是否對我來說,還是一個簡單的方法,通過數據進行迭代,並得到這個代表性?
一個簡單的辦法是做在讀該步: http://stackoverflow.com/questions/5048638/automatically-expanding-an -r-factor-into-a-collection-of-1-indicator-variables – 2013-05-25 21:18:16