2016-12-14 59 views
2
import dask.dataframe as dd 
import numpy as np 
from dask import delayed 

df1 = pd.DataFrame({'a': np.arange(10), 'b': np.random.rand()}) 
df1 = df1.astype({'a':np.float64}) 
df2 = pd.DataFrame({'a': np.random.rand(5), 'c': 1}) 
df1.to_csv('df1.csv') 
df2.to_csv('df2.csv') 
dd.read_csv('*.csv').compute() 

給人內部聯接結果:DASK:外部聯接從多個CSV文件中讀取

Unnamed: 0   a   b 
0   0 0.000000 0.218319 
1   1 1.000000 0.218319 
2   2 2.000000 0.218319 
... 

和:

df1_delayed = delayed(lambda: df1)() 
df2_delayed = delayed(lambda: df2)() 
dd.from_delayed([df1_delayed, df2_delayed]).compute() 

給人外連接的結果:

  a   b c 
0 0.000000 0.218319 NaN 
1 1.000000 0.218319 NaN 
2 2.000000 0.218319 NaN 
... 

如何使read_csv在相同的模式下工作?

編輯:

即使經過D型架構到大熊貓不起作用:

dd.read_csv('*.csv', dtype={'a':np.float64, 'b': np.float64, 'c': np.float64}).compute() 

回答

2

一般dask.dataframe假定形成的dask.dataframe所有熊貓dataframes具有相同的列和dtype。如果情況並非如此,行爲是不明確的。

如果您的CSV具有不同的列和dtype,那麼我建議您使用dask.delayed,就像您在第二個示例中所做的那樣,並在調用dask.dataframe.from_delayed之前明確添加新的空列。