我正在運行Python 3.5.2和Pandas 0.19.1。我使用read_fwf()
來讀取最初在FORTRAN中格式化的大型數據文件。它看起來像這樣的列:熊貓read_fwf忽略值
SiC4+ e- C2 c-SiC2 1.500e-07 -5.000e-01 0.000e+00 2.00e+00 0.00e+00 logn 8 10 280 3 746 1 1
SiC4+ e- C l-SiC3 1.500e-07 -5.000e-01 0.000e+00 2.00e+00 0.00e+00 logn 8 10 280 3 747 1 1
O e- O- 1.500e-15 0.000e+00 0.000e+00 2.00e+00 0.00e+00 logn 8 10 280 3 744 1 1
S e- S- 5.000e-15 0.000e+00 0.000e+00 2.00e+00 0.00e+00 logn 8 10 280 3 745 1 1
要讀這,我使用此代碼:
convert = lambda x: int(species[x]) if x!='' else None
reactions = pd.read_fwf('data.dat',sep='\s+',converters{0:convert,1:convert,2:convert,3:convert})
reactions.fillna(0,inplace=True)
該轉換器把前4列化學名稱和其索引編號替換它們(來自另一個文件),並且任何丟失的數據都被索引號0替換。這工作正常。
什麼不行的是第6列和第15列。
116 76 7 30 1.500000e-07 0.5 0.0 2.0 0.0 logn 8 10 280 3 46 1 1
116 76 1 41 1.500000e-07 0.5 0.0 2.0 0.0 logn 8 10 280 3 47 1 1
4 76 74 0 1.500000e-15 0.0 0.0 2.0 0.0 logn 8 10 280 3 44 1 1
5 76 75 0 5.000000e-15 0.0 0.0 2.0 0.0 logn 8 10 280 3 45 1 1
這是怎麼回事?第6列失去負號,第15列失去領先的'7'。我找不到爲什麼發生這種情況的原因,而且沒有任何意義。文件中帶有負號的其他列保持不變。
更新
下面的解決方案是不是不正確,但它爲我工作需要對文件頭一個非常重要的變化。我的文件的第7列看起來像這樣(有頭):
Input1 Input2 Output1 Output2 alpha beta gamma
NC3 CRP C2 CN 2.000e+03 0.000e+00 0.000e+00
C2N2 CRP CN CN 2.000e+03 0.000e+00 0.000e+00
NC7 CRP C6 CN 2.000e+03 -1.000e+00 0.000e+00
read_fwf()
讀頁眉和中之間的空間,並且必須假定列標測試版本是間隔從2點月底的字符掉標記爲alpha的列,完全忽略了beta中某些值的負號。
我改變了所有列的標題位置,這可能是一個問題,並且問題已修復。
Input1 Input2 Output1 Output2 alpha beta gamma
NC3 CRP C2 CN 2.000e+03 0.000e+00 0.000e+00
C2N2 CRP CN CN 2.000e+03 0.000e+00 0.000e+00
NC7 CRP C6 CN 2.000e+03 -1.000e+00 0.000e+00
請注意,beta(和gamma)的文件頭被拉到一個空間左側。這足夠早地啓動該列以便read_fwf()
包括負號。
MaxU的答案是好的,但只是一個快速評論:用'九月='你給一個分離器,但read_fwf'的'的一點是,你有一列有序的文件,而不是分隔符組織的文件。所以我認爲你不想把'read_fwf'和'sep ='參數結合起來。如果你想使用分隔符,只需使用'read_csv' – JohnE
從來沒有想到'sep ='會是問題所在。我認爲它是良性的,因爲它被包含在'read_fwf()'的文檔中。 – SteelAngel