2017-07-28 116 views
0

我正在學習做數據分析,但他們給我的數據庫分成13個部分,每部分有13個文件。我檢查了每個部分,發現前10列重複每個文件作爲標題加入文件,特別是'id'和'date'兩列。作爲上下文,這個數據庫是200萬條虛假醫療記錄的記錄,所以我想加入所有與所有其他列具有相同ID和日期的行,但是我想保留沒有任何其他匹配行的行。如何在python anaconda中結合xlsx文件?

files = glob.glob('*.xlsx') 
df_list = [] 
for the file in files: 
    df = pd.read_excel(file) 
    df['file'] = file 
    df_list.append(df) 

到目前爲止,我已經能夠加入所有文件,但是我無法通過列驗證進行連接。謝謝你的時間。

回答

1

您需要Concat的的dataframes

fdf = pd.concat(df_list) 
+0

對不起,我想你的方式,但它沒有工作,顯然有一些問題,我的索引,但我解決這個問題。謝謝 – alex