2014-05-21 30 views
0

我有我工作的大熊貓數據框。 20mm排,30列。行有很多數據,每行都有一個使用特定列的「類型」。正因爲如此,我目前設計的DataFrame有一些混合dtypes的行,無論這個行是哪一種「類型」。熊貓性能:一列中有多個dtypes還是分裂成不同的dtype?

我的問題是,性能方面,我應該把混合的dtype列分成兩個單獨的列還是保持一致?我遇到了一些問題,讓一些DataFrame甚至保存(to_pickle)並儘可能地提高效率。

這些列可以是當前構造的float/str,float/int,float/int/str的混合。

+1

你應該總是把它們分開;混合dtypes是緩慢的主要原因 – Jeff

+0

對於尺寸約束呢?嘗試保存時,我遇到了某種尺寸限制。這會大大增加尺寸嗎? – user1610719

+1

我永遠不會保存在泡菜中;使用HDF5(甚至csv比鹹菜更好)。您可以同時讀取和寫入數據。 – Jeff

回答

0

在我看來,它可能取決於你的後續用例。但恕我直言,我會使每列獨特的類型,否則功能,如總計和其他常見的熊貓功能,將無法正常工作。