2015-10-17 78 views
0

我正嘗試爲數據挖掘創建一個csv文件,其中每個單獨實例都有一個屬性subject,該屬性具有40可能的值以及對應的grade也是屬性。每個實例最多隻能有4grade。我如何創建一個csv文件excel代表每個主題{p,q,r,s,t,u,v,w,x,y,z,aa,ab,...}作爲sub-attribute{A,B,C,D,E,F,O}{A,B,C,D,E,F,O}作爲值,這樣我就不會失去依賴和關係的主題。重新格式化R中的CSV文件

他們顯然安排(subject->sub, grade->grd)如下

|id|sex|sub1 |grd1 |sub2 |grd2 |sub3 |grd3 |sub4 |grd4 | 
|--|---|-----|-----|-----|-----|-----|-----|-----|-----| 
|1 |M |x |A |y |B |u |O |s |C | 
|2 |F |p |E |aa |E |t |A |r |B | 
|3 |M |q |B |z |D |aa |A |v |C | 
|4 |F |t |D |ab |O |y |B |u |A | 

我想要的屬性轉化爲

|id|sex|subject          | 
|--|---|-----------------------------------------------| 
|1 |M |x |A |y |B |u |O |s |C | 
|2 |F |p |E |aa |E |t |A |r |B | 
|3 |M |q |B |z |D |aa |A |v |C | 
|4 |F |t |D |ab |O |y |B |u |A | 

在此先感謝

+0

**爲什麼**?沒有應用程序將能夠讀取這種格式。因爲它不再是CSV **。 –

+0

除了列標題外,這兩個表看起來完全相同,因此很難理解您要查找的轉換類型。你能澄清嗎?一般來說,Excel中的大規模轉換比使用OpenRefine或Python等語言更難。 –

回答

0

此後,它一直長什麼,但希望這可以幫助別人其他。正如@ Anony-Mousse指出的那樣,格式不再是csv數據格式。像字典這樣的數據結構可以對這種表示形式有所幫助。這裏有兩種可能的選擇,您可以創建嵌套字典和列表,或者數據的表示可以採用寬格式。對於像R這樣的語言,要將數據轉換爲長fomart,可以使用重塑包來引用此鏈接。 https://stats.idre.ucla.edu/r/faq/how-can-i-reshape-my-data-in-r/