dask-distributed

1熱度

2回答

我的目標是在一組3個linux（ubuntu）物理工作站上建立一個docker swarm，並在其上運行dask羣集。 $ docker --version Docker version 17.06.0-ce, build 02c1d87 我能夠初始化碼頭羣並將所有機器添加到羣中。 cordoba$ docker node ls ID HOSTNAME STATUS AVAIL

1熱度

1回答

如何在dask中關閉python實例debug

我在本地使用dask客戶端。問題是當任務完成時，即使我使用本地調度程序，我仍然在內存中有很多python實例。這是我在做什麼： x.compute(get=dask.get) from dask.distributed import Client client = Client() # Starts local cluster x.compute() 如果我跑這幾個時間我將結束我的幾個過

1熱度

1回答

是否有dask api在dask羣集中獲取當前任務數

我遇到了一個問題，如果在短時間內提交大量任務，dask調度程序會被殺死（但工作人員繼續運行），並出現內存錯誤。如果可以獲取羣集上當前的任務數量，那麼很容易控制提交給羣集的併發任務的數量。注意：任務正在從多個客戶端提交給同一個調度程序。

1熱度

2回答

DASK Sheduler

的緩慢增加內存使用情況我運行一個測試： client = Client('127.0.0.1:8786') def x(i): return {} while True: start = time.time() a = client.submit(randint(0,1000000)) res = a.result() del a

1熱度

1回答

如何從命令行運行分佈在本地的集羣？

我想從命令行執行相當於Client(LocalCluster())的操作。與Jupyter筆記本電腦分佈式交互時，我最終經常重新啓動內核並每次啓動新的LocalCluster以及刷新我的散景網頁。我寧願有一個進程在後臺運行，我可以連接到，這可能嗎？

1熱度

1回答

Dask - 搜索匹配值的行

我試圖使用Dask來讀取非常大的csv文件（這些文件都適合內存，它們非常大，但我有很多內存）的文件夾 - 我目前解決方案看起來像： val = 'abc' df = dd.read_csv('/home/ubuntu/files-*', parse_dates=['date']) # 1 - df_pd = df.compute(get=dask.multiprocessing.get)

1熱度

1回答

DASK read_sql_table錯誤： 'instancemethod' 對象有沒有屬性 '__getitem__'

我得到這個錯誤與此PARAMS： import pandas as pd import numpy as np from sqlalchemy import create_engine import dask.dataframe as dd from sqlalchemy.sql import text query = text("Some SQL statement") df = d

1熱度

1回答

在多用戶dask.distributed集羣中分離python環境有哪些選項？

當多個用戶上傳（upload_file）相同的python文件或zip內容的略微不同的版本時，我特別感興趣的是避免衝突。看起來這不是真正的支持用例，因爲工作進程是長期運行的並且受到其他環境的更改/添加影響。我喜歡圖書館的簡單按需本地/遠程上下文切換，所以希望瞭解我們可能擁有哪些選項的任何洞察，即使這意味着針對用戶特定的工作進程的一些無縫的類似部署步驟。

1熱度

1回答

我可以.set_index（）懶惰（或要併發執行），在Dask Dataframes？

TL;博士：是否有可能.set_index()方法在幾個DASK Dataframes 並行同時？或者，是否有可能在幾個Dask數據幀上懶洋洋地插入.set_index()，因此會導致並行地被設置爲？下面是這種情況：我有幾個時間序列每個時間序列存儲的是幾個.csv文件。每個文件都包含與特定日期相關的數據。此外，文件分散在不同的文件夾中（每個文件夾包含一個月的數據）每個時間序列具有不

0熱度

1回答

從並行txt文件中讀取dask數據幀

我在S3中存儲了兩個（或多個）並行文本文件 - 即第一個文件中的第一行對應於第二個文件中的第一行等。我想將這些文件作爲列讀入一個文件dask數據幀。什麼是最好/最簡單/最快的方式來做到這一點？ PS。我可以將它們中的每一個讀入單獨的數據框，但是因爲數據幀索引值似乎既不是唯一的也不是單調的，所以我無法將它們連接到索引上。同時，行的對應關係由它們在每個文件中的位置來定義。