2017-05-07 86 views
1

我想知道如果我可以使用dask而不是熊貓。我可能會遇到什麼問題?Dask就地更換熊貓?

1)我猜dask對於較小的數據集比pandas要慢。我確定,因爲有時我不知道數據的大小,也不知道服務器配置。

2)我將不得不學會一個稍微不同的語法(例如計算)

我將面對的情況是DASK數據幀不能做一些事情,大熊貓數據幀可以嗎?

回答

3

這是一個非常寬泛的問題。一般來說,我建議參考dask.dataframe documentation

Dask.dataframe不執行所有的熊貓。這包括以下各種操作:

  1. 變異操作
  2. 操作,是很難在平行於做完全一樣,中位數,(雖然經常存在近似解,如近似位數)
  3. 迭代的行一個數據幀
  4. API的小角落,沒有人打擾複製。

但是,由於dask數據框只是許多小型數據框的集合,因此您可以在簡單情況下解決其中的一些限制。