Python熊貓大浮動與to_csv

我有一個recurring problem在Python中將大量數據保存到csv。這些數字是毫秒紀元時間戳，我無法轉換或截斷並必須以此格式保存。由於與毫秒時間戳列還包含一些NaN值，熊貓自動轉換它們漂浮（見陷阱the documentation下「支持整數NA」。Python熊貓大浮動與to_csv

我似乎無法避免這種行爲，所以我的問題是，在使用df.to_csv時，如何將這些數字保存爲整數值，即沒有小數點或尾隨零？我在同一個數據框中有不同浮動精度數的列，我不想丟失那些信息。在to_csv的float_format參數似乎適用相同的格式在我的數據幀ALL浮點列

一個例子：

>>> df = pd.DataFrame({'a':[1.25, 2.54], 'b':[1424380449437, 1425510731187]}) 
>>> df['b'].dtype 
Out[1]: dtype('int64') 
>>> df.loc[2] = np.NaN 
>>> df 
Out[1]: 
     a    b 
0 1.25 1.424380e+12 
1 2.54 1.425511e+12 
2 NaN   NaN 
>>> df['b'].dtype 
dtype('float64') 
>>> df.to_csv('test.csv') 
>>> with open ('test.csv') as f: 
...  for line in f: 
...   print(line) 
,a,b 
0,1.25,1.42438044944e+12 
1,2.54,1.42551073119e+12 
2,,

正如你所看到的，我失去了我的紀元時間戳的最後兩位數的精度。

來源

2017-09-15 Alarik

您可以用零替換'nan'值，然後將列轉換爲整數。 'df.b = df.b.fillna（0）.astype（int）'或在後面的處理中使用'-1'來標識條目。 –

這是一種可能性，但卻是一種相當笨拙的解決方法。我寧願保留'nan'值，因爲它允許簡單的索引和過濾。此外，我用於'nan'的任何佔位符值可能會自然地出現在Dataframe中。 – Alarik

儘管pd.to_csv沒有用於更改各列格式的參數，pd.to_string的確如此。這有點麻煩，可能是非常大的DataFrames的一個問題，但是您可以使用它來生成格式正確的字符串，然後將該字符串寫入文件（正如此answer中針對類似問題所建議的那樣）。 to_string的formatters參數以例如格式化各個列的函數字典爲例。在你的情況下，你可以爲"b"列編寫自己的自定義格式化程序，並保留其他列的默認值。這種格式看起來有點像這樣：

def printInt(b): 
    if pd.isnull(b): 
     return "NaN" 
    else: 
     return "{:d}".format(int(b))

現在你可以用它來製作你的字符串：

df.to_string(formatters={"b": printInt}, na_rep="NaN")

這給：

'  a    b\n0 1.25 1424380449437\n1 2.54 1425510731187\n2 NaN   NaN'

你可以看到，仍有問題，這不是逗號分隔和to_string實際上沒有參數設置自定義分隔符，但這可以很容易地由正則表達式修復：

import re 
re.sub("[ \t]+(NaN)?", ",", 
     df.to_string(formatters={"b": printInt}, na_rep="NaN"))

給出：

',a,b\n0,1.25,1424380449437\n1,2.54,1425510731187\n2,,'

這現在可以寫入文件：

with open("/tmp/test.csv", "w") as f: 
    print(re.sub("[ \t]+(NaN)?", ",", 
       df.to_string(formatters={"b": printInt}, na_rep="NaN")), 
      file=f)

導致你想要的東西：

,a,b 
0,1.25,1424380449437 
1,2.54,1425510731187 
2,,

如果要保持NaN的在CSV文件，你可以改變的正則表達式：

with open("/tmp/test.csv", "w") as f: 
    print(re.sub("[ \t]+", ",", 
       df.to_string(formatters={"b": printInt}, na_rep="NaN")), 
      file=f)

會給：

,a,b 
0,1.25,1424380449437 
1,2.54,1425510731187 
2,NaN,NaN

如果你的數據幀之前，包含有空格的字符串，一個強大的解決方案並不容易。您可以在每個值的前面插入另一個字符，表示下一個條目的開始。如果所有字符串中只有一個空格，則可以使用另一個空格。這將更改代碼這樣：

import pandas as pd 
import numpy as np 
import re 

df = pd.DataFrame({'a a':[1.25, 2.54], 'b':[1424380449437, 1425510731187]}) 
df.loc[2] = np.NaN 

def printInt(b): 
    if pd.isnull(b): 
     return " NaN" 
    else: 
     return " {:d}".format(int(b)) 

def printFloat(a): 
    if pd.isnull(a): 
     return " NaN" 
    else: 
     return " {}".format(a) 

with open("/tmp/test.csv", "w") as f: 
    print(re.sub("[ \t][ \t]+", ",", 
       df.to_string(formatters={"a": printFloat, "b": printInt}, 
           na_rep="NaN", col_space=2)), 
      file=f)

這將使：

,a a,b 
0,1.25,1424380449437 
1,2.54,1425510731187 
2,NaN,NaN

來源

2017-09-15 12:55:15 jotasi

我很抱歉，最後的例子不是我想要的，而是我想避免的。所以'NaN's應該被表示爲這樣。另外，如何讓正則表達式不分割包含多個單詞的列名？ – Alarik

我更新了我的答案，允許列名中的空格並保留NaN（我以爲你只希望那些留在'df'中）。這有幫助嗎？ – jotasi

我接受了你的答案，因爲它解決了我的問題，儘管它仍然是一個可怕的解決方法，主要是因爲我必須爲幾十列指定格式化程序;）我選擇了單個間距正則表達式匹配，因爲雙倍間距會遇到麻煩當列名稱或單元格條目太長時（因爲它只會在列中留下單個空格），因此使用熊貓「to_string」函數。感謝您的幫助！ – Alarik

也許這可以工作：

pd.set_option('precision',15) 
df = pd.DataFrame({'a':[1.25, 2.54], 'b':[1424380449437, 1425510731187]}) 
fg = df.applymap(lambda x: str(x)) 
fg.loc[2] = np.NaN 
fg.to_csv('test.csv', na_rep='NaN')

輸出應該是這樣的（我在mac）：

來源

2017-09-15 14:32:03 erasmortg

但是在這種情況下，您必須在插入'NaN'之前將DataFrames條目更改爲字符串，不是嗎？ – jotasi

@jotasi是的，否則你會失去精確度。我想它可能是您的替代品 – erasmortg

謝謝您的輸入，但這對我不起作用 - 我的原始數據框一直有NaN，我只是在示例中添加它們以顯示列的獲取方式力量鑄造浮動。 – Alarik

Python熊貓大浮動與to_csv

回答

相關問題