dask-distributed

    1熱度

    1回答

    我無法使用數據幀讀取訪問我S3上的文件:df_read_csv。我得到的錯誤:Exception: Unable to locate credentials 這工作正常,當我的dask分佈對本地工作者內核運行。但是,當我使用其他工作服務器集羣導入客戶端時,它會失敗。我的集羣是在ubuntu上使用dask-ec2創建的,在頭部服務器和3個工作服務器(全部ubuntu)上有1個調度器。 我假設失敗是因

    0熱度

    2回答

    dask.compute(...)預計是阻止呼叫。但是,當我嵌套dask.compute,並且內部一個I/O(如dask.dataframe.read_parquet)時,內部dask.compute不會阻塞。下面是一個僞代碼示例:如果我開始2名工人8個處理每個像 import dask, distributed def outer_func(name): files = find_

    1熱度

    2回答

    在dask.distributed上使用期貨時,有沒有辦法區分目前正在評估的期貨pending和仍然在隊列中? 原因是我將大量任務(〜8000)提交給較小的工作人員(100),因此不是所有任務都可以立即處理。這些任務涉及調用第三方可執行文件(,通過subprocess.check_output),在一些極少數情況下會進入無限循環。 因此,我想取消期貨運行時間太長(使用任意超時)。然而,似乎沒有辦法

    1熱度

    1回答

    我正在使用dask.distributed來實現各種數據處理管道。通常從S3讀取原始數據,最後處理(大)集合也將在S3上寫入CSV。 我可以異步運行處理並監視進度,但我注意到存儲集合到文件的所有to_xxx()方法似乎都是同步調用。其中一個缺點是電話會阻塞很長時間。其次,我不能輕易構建一個完整的圖形,以便稍後執行。 有沒有辦法運行例如to_csv()異步獲取未來的對象而不是阻塞? PS:我非常確定

    1熱度

    1回答

    當我運行dask.distributed workers時,任務函數中拋出的任何異常都會傳播到調度程序並終止整個工作。有沒有辦法使任務失敗,以便調度程序負責重試它(可能在另一個工作者上)?

    1熱度

    1回答

    在分佈式多處理工作人員中定義工作人員資源(http://distributed.readthedocs.io/en/latest/resources.html)時,是否爲所有進程定義了資源池? 例如,工人主機上我運行: dask-worker --nprocs 8 --resources HOST=1 現在,如果我認爲需要resources={"HOST":1}任務(s)沒有這樣的保證,只有那

    1熱度

    1回答

    我正在將多個操作應用於dask數據框。我可以爲特定操作定義分佈式工作人員資源需求嗎 例如我打電話是這樣的: df.fillna(value="").map_partitions(...).map(...) 我想指定map_partitions資源需求()(比那些潛在的不同的地圖()),但好像方法不接受資源參數。 PS。或者,我發現我可以在map_partitions()之後調用client.p

    0熱度

    2回答

    我想知道是否有可能在使用Dask進行groupBy聚合之後獲得來自給定列的唯一項的數量。在文檔中我沒有看到類似的東西。它可以在熊貓數據框中使用,非常有用。我已經看到一些與此相關的問題,但我不確定它是否已實施。 有人可以給我一些提示嗎?

    1熱度

    1回答

    我正在嘗試使用dask(異步)框架執行一個簡單的任務(實例方法),但它失敗並出現序列化錯誤。 有人能指引我正確的方向。 這裏是我運行的代碼: from dask.distributed import Client, as_completed import time class DaskConnect: def __init__(self): print("Initialized

    0熱度

    1回答

    我在Kubernetes和AWS和I上測試自動縮放Dask分佈式實現時創建了一個演示問題我不確定我是否正確解決了該問題。 我的場景是一個字符串(表示密碼)的md5散列找到原始字符串。我遇到了三個主要問題。 A)參數空間很大,試圖用2.8211099e + 12個成員創建一個dask包導致了內存問題(因此您將在下面的示例代碼中看到'explode'函數)。 B)在早期發現時清理出口。我認爲使用tak