我有一個包含數百個子文件夾的根目錄。現在我想讀取每個子文件夾中的csv文件,它們的名稱是相同的,比如說study.csvPython在樹目錄中遞歸讀取cvs文件並將兩列中的一列附加到數據框中
讀取csv文件後,我想創建一個數據幀來存儲來自這些csv的部分數據文件。新的數據框將包含3列。一個是我們新創建的用於標記csv文件ID的列,另外兩列是兩個csv文件列。
例如: 原始CSV文件的結構是:
row1....
row2....
row3....
row4: column1 column2 column3 column14 column5
row5: 1 2 3 4 5
row6: 2 4 2 1 10
row7: 3 8 9 11 23
...
預期的數據幀我想:
New column column3 column4
1 3 4
1 2 1
1 2 1
1 9 11
因此,我們將讀取CSV文件,從開始第4行,對於此數據框中的新列,如果行來自相同的csv文件,則值將相同。我們可以將這個新列作爲csv文件ID。
我發現os.walk
可以幫助我遍歷樹目錄,但是我怎樣才能讀取csv中的兩個特定列,同時相應地創建一個新的列?
看看[numpy](http://www.numpy.org/)和[csv](https://docs.python.org/3/library/csv.html)。 – tomasyany