distributed-computing

    2熱度

    1回答

    我很想了解Spark如何實現容錯。在他們的paper中,他們描述了他們如何爲像地圖這樣相當簡單的「狹義依賴性」做到這一點。但是,如果一個節點在像排序操作這樣的廣泛依賴之後崩潰,他們不會說明他們做了什麼。我能找到的唯一的事情是這樣的: 相比之下,具有廣泛的依賴關係的譜系圖,一個失敗的節點可能會導致某些分區的損失從RDD的所有祖先,需要一個完整的重執行。 這對於理解發生的事情並不足夠。 排序後,沒有辦

    5熱度

    1回答

    我已經在羣集上啓動並運行了dask,但似乎無法訪問診斷網頁。着陸頁是可見的,見下圖: 但是所有的鏈接只是掛永不加載頁面。 調度開始細跟這樣的輸出: [[email protected] ~]$ dask-scheduler --scheduler-file dask-scheduler.json distributed.scheduler - INFO - -------------------

    0熱度

    1回答

    我剛剛完成了一個數據庫課程,深入到數據庫的內部。我試圖將我們在課程中學到的所有術語連接起來,但我感覺我缺少一些片段。這裏是我所知道的: 數據庫:數據結構的「邏輯」表示 - 可互換地用來指物理數據,關係案例中的「表格」數據和DBMS。 數據庫管理系統(DBMS):爲管理員/用戶提供開發加速訪問等機制的工具。系統理解數據的統計信息,並可執行查詢優化以開發良好的執行路徑。例如:PostgreSql,My

    1熱度

    3回答

    你好我經常需要在我的代碼中使用groupByKey,但我知道這是一個非常繁重的操作。由於我正在努力提高性能,我想知道我的方法是否有效地移除所有groupByKey調用。 我被用來創建從另一個RDD的RDD和創建對類型(INT,INT) rdd1 = [(1, 2), (1, 3), (2 , 3), (2, 4), (3, 5)] ,因爲我需要獲得這樣的事情: [(1, [2, 3]), (2 ,

    1熱度

    2回答

    我想讓我的Spark程序執行速度有時間,但由於懶惰,這是相當困難的。讓我們考慮到這裏本(意義)代碼: var graph = GraphLoader.edgeListFile(context, args(0)) val graph_degs = graph.outerJoinVertices(graph.degrees).triplets.cache /* I'd need to start

    0熱度

    2回答

    我正在閱讀關於八卦式失敗檢測的內容。 在我正在讀它的Notes的指出:a single heartbeat takes O(log(N)) time to propagate但這一說法沒有解釋 任何想法,這是爲什麼?

    1熱度

    1回答

    我目前在一家公司的大數據團隊工作,我需要從Dynamo數據庫導出數據到亞馬遜s3,當導出數據和使用火花查詢提取的半結構化JSON時,需要40分鐘才能進行即席查詢與全表掃描。我閱讀了關於apache操作及其對非結構化數據進行秒查詢的能力,是否應該繼續使用apache操作或對json進行扁平化並將其存儲爲配置單元ORC表(一萬個列)?換句話說,我需要進行查詢而無需進行全表掃描。

    1熱度

    1回答

    我是新來的並行計算,我無法理解PBS系統的使用。我已成功安裝SLURM並設置處理節點。但無法理解我如何在多個節點之間分配任務。 有很多簡單的例子,但他們只是運行簡單的「Hello World」程序,這就是全部。 考慮下面的例子,我在網上找到了。 #!/bin/bash #SBATCH -N 4 #SBATCH -c 1 #SBATCH --time=0-00:15:00 # 30 minu

    0熱度

    1回答

    您好,我正在比較兩種不同集羣上Spark算法的性能。一種具有更高的計算能力,另一種具有更高的內存效率。 羣集1具有AWS實例5個節點c4.xlarge與4個vCPU和主存儲器的 7.5GiB。 集羣2有5個AWS實例節點r4.xlarge具有4個vCPU和30.5吉比特的主存儲器。 我的代碼被分成13個階段,但只有最後5個階段實際上是我需要照顧的性能。下面這五個: 上面的圖片顯示了運行我的羣2(記

    2熱度

    2回答

    爲什麼Paxos需要兩個階段(prepare/promise + accept/accepted)而不是一個階段?也就是說,只使用prepare/promise部分,如果提議者已經從大多數接受者那裏收到回覆,那麼該值就是選擇的。 問題是什麼,它是否會破壞安全性或活力?