dask-distributed

1熱度

1回答

我無法使用數據幀讀取訪問我S3上的文件：df_read_csv。我得到的錯誤：Exception: Unable to locate credentials 這工作正常，當我的dask分佈對本地工作者內核運行。但是，當我使用其他工作服務器集羣導入客戶端時，它會失敗。我的集羣是在ubuntu上使用dask-ec2創建的，在頭部服務器和3個工作服務器（全部ubuntu）上有1個調度器。我假設失敗是因

0熱度

2回答

嵌套dask.compute不會阻止

dask.compute（...）預計是阻止呼叫。但是，當我嵌套dask.compute，並且內部一個I/O（如dask.dataframe.read_parquet）時，內部dask.compute不會阻塞。下面是一個僞代碼示例：如果我開始2名工人8個處理每個像 import dask, distributed def outer_func(name): files = find_

1熱度

2回答

如何區分排隊和正在運行的期貨（並殺死運行時間過長的期貨）

在dask.distributed上使用期貨時，有沒有辦法區分目前正在評估的期貨pending和仍然在隊列中？原因是我將大量任務（〜8000）提交給較小的工作人員（100），因此不是所有任務都可以立即處理。這些任務涉及調用第三方可執行文件（，通過subprocess.check_output），在一些極少數情況下會進入無限循環。因此，我想取消期貨運行時間太長（使用任意超時）。然而，似乎沒有辦法

1熱度

1回答

將dask集合異步存儲到文件/ CSV

我正在使用dask.distributed來實現各種數據處理管道。通常從S3讀取原始數據，最後處理（大）集合也將在S3上寫入CSV。我可以異步運行處理並監視進度，但我注意到存儲集合到文件的所有to_xxx（）方法似乎都是同步調用。其中一個缺點是電話會阻塞很長時間。其次，我不能輕易構建一個完整的圖形，以便稍後執行。有沒有辦法運行例如to_csv（）異步獲取未來的對象而不是阻塞？ PS：我非常確定

1熱度

1回答

Dask worker優雅任務失敗

當我運行dask.distributed workers時，任務函數中拋出的任何異常都會傳播到調度程序並終止整個工作。有沒有辦法使任務失敗，以便調度程序負責重試它（可能在另一個工作者上）？

1熱度

1回答

分佈式工作人員的Dask工作人員資源

在分佈式多處理工作人員中定義工作人員資源（http://distributed.readthedocs.io/en/latest/resources.html）時，是否爲所有進程定義了資源池？例如，工人主機上我運行： dask-worker --nprocs 8 --resources HOST=1 現在，如果我認爲需要resources={"HOST":1}任務（s）沒有這樣的保證，只有那

1熱度

1回答

爲數據幀操作定義dask工作者資源

我正在將多個操作應用於dask數據框。我可以爲特定操作定義分佈式工作人員資源需求嗎例如我打電話是這樣的： df.fillna(value="").map_partitions(...).map(...) 我想指定map_partitions資源需求（）（比那些潛在的不同的地圖（）），但好像方法不接受資源參數。 PS。或者，我發現我可以在map_partitions（）之後調用client.p

0熱度

2回答

Dask：在Dataframe組上的nunique方法通過

我想知道是否有可能在使用Dask進行groupBy聚合之後獲得來自給定列的唯一項的數量。在文檔中我沒有看到類似的東西。它可以在熊貓數據框中使用，非常有用。我已經看到一些與此相關的問題，但我不確定它是否已實施。有人可以給我一些提示嗎？

1熱度

1回答

使用dask提交任務時出現pickle錯誤

我正在嘗試使用dask（異步）框架執行一個簡單的任務（實例方法），但它失敗並出現序列化錯誤。有人能指引我正確的方向。這裏是我運行的代碼： from dask.distributed import Client, as_completed import time class DaskConnect: def __init__(self): print("Initialized

0熱度

1回答

使用Dask進行大規模並行搜索操作，分佈式

我在Kubernetes和AWS和I上測試自動縮放Dask分佈式實現時創建了一個演示問題我不確定我是否正確解決了該問題。我的場景是一個字符串（表示密碼）的md5散列找到原始字符串。我遇到了三個主要問題。 A）參數空間很大，試圖用2.8211099e + 12個成員創建一個dask包導致了內存問題（因此您將在下面的示例代碼中看到'explode'函數）。 B）在早期發現時清理出口。我認爲使用tak