dask-distributed

    1熱度

    2回答

    我的目標是在一組3個linux(ubuntu)物理工作站上建立一個docker swarm,並在其上運行dask羣集。 $ docker --version Docker version 17.06.0-ce, build 02c1d87 我能夠初始化碼頭羣並將所有機器添加到羣中。 cordoba$ docker node ls ID HOSTNAME STATUS AVAIL

    1熱度

    1回答

    我在本地使用dask客戶端。問題是當任務完成時,即使我使用本地調度程序,我仍然在內存中有很多python實例。這是我在做什麼: x.compute(get=dask.get) from dask.distributed import Client client = Client() # Starts local cluster x.compute() 如果我跑這幾個時間我將結束我的幾個過

    1熱度

    1回答

    我遇到了一個問題,如果在短時間內提交大量任務,dask調度程序會被殺死(但工作人員繼續運行),並出現內存錯誤。 如果可以獲取羣集上當前的任務數量,那麼很容易控制提交給羣集的併發任務的數量。 注意:任務正在從多個客戶端提交給同一個調度程序。

    1熱度

    2回答

    的緩慢增加內存使用情況我運行一個測試: client = Client('127.0.0.1:8786') def x(i): return {} while True: start = time.time() a = client.submit(randint(0,1000000)) res = a.result() del a

    1熱度

    1回答

    我想從命令行執行相當於Client(LocalCluster())的操作。 與Jupyter筆記本電腦分佈式交互時,我最終經常重新啓動內核並每次啓動新的LocalCluster以及刷新我的散景網頁。 我寧願有一個進程在後臺運行,我可以連接到,這可能嗎?

    1熱度

    1回答

    我試圖使用Dask來讀取非常大的csv文件(這些文件都適合內存,它們非常大,但我有很多內存)的文件夾 - 我目前解決方案看起來像: val = 'abc' df = dd.read_csv('/home/ubuntu/files-*', parse_dates=['date']) # 1 - df_pd = df.compute(get=dask.multiprocessing.get)

    1熱度

    1回答

    我得到這個錯誤與此PARAMS: import pandas as pd import numpy as np from sqlalchemy import create_engine import dask.dataframe as dd from sqlalchemy.sql import text query = text("Some SQL statement") df = d

    1熱度

    1回答

    當多個用戶上傳(upload_file)相同的python文件或zip內容的略微不同的版本時,我特別感興趣的是避免衝突。 看起來這不是真正的支持用例,因爲工作進程是長期運行的並且受到其他環境的更改/添加影響。 我喜歡圖書館的簡單按需本地/遠程上下文切換,所以希望瞭解我們可能擁有哪些選項的任何洞察,即使這意味着針對用戶特定的工作進程的一些無縫的類似部署步驟。

    1熱度

    1回答

    TL;博士: 是否有可能.set_index()方法在幾個DASK Dataframes 並行 同時?或者,是否有可能在幾個Dask數據幀上懶洋洋地插入.set_index(),因此會導致 並行地被設置爲 ? 下面是這種情況: 我有幾個時間序列 每個時間序列存儲的是幾個.csv文件。每個文件都包含與特定日期相關的數據。此外,文件分散在不同的文件夾中(每個文件夾包含一個月的數據) 每個時間序列具有不

    0熱度

    1回答

    我在S3中存儲了兩個(或多個)並行文本文件 - 即第一個文件中的第一行對應於第二個文件中的第一行等。我想將這些文件作爲列讀入一個文件dask數據幀。什麼是最好/最簡單/最快的方式來做到這一點? PS。我可以將它們中的每一個讀入單獨的數據框,但是因爲數據幀索引值似乎既不是唯一的也不是單調的,所以我無法將它們連接到索引上。同時,行的對應關係由它們在每個文件中的位置來定義。