distributed-computing

    0熱度

    1回答

    start(_Type, _Args) -> case application:get_env(ebid, join_schema) of undefined -> mnesia:create_schema([node()]), mnesia:start(), initialize_tables(), mnesia:wait_fo

    6熱度

    1回答

    我有一個PySpark應用程序必須詳細說明5GB的壓縮數據(字符串)。我正在使用一個帶有12個內核(24個線程)和72Gb RAM的小型服務器。我的PySpark程序僅包含2個地圖操作,由3個非常大的正則表達式(每個3gb已編譯)和pickle加載。 Spark工作在獨立模式下,工人和主人在同一臺機器上。 我的問題是:是否爲每個執行器核心引發複製每個變量?因爲它使用所有可用的內存,然後使用大量的交

    3熱度

    1回答

    在這個post,有人提到: 此外,還有工人和PS設備之間沒有內置區別 - 它只是一個約定,變量會被分配到PS設備和 OPS被分配到工作人員設備。 在這種post,有人提到: TL; DR:TensorFlow不知道「參數服務器」什麼,但 相反,它支持在多個設備上運行的圖表在 不同流程。其中一些進程具有名稱爲 的設備以"/job:ps"開頭,並且這些設備包含這些變量。工作人員驅動 的培訓過程,當他們

    1熱度

    1回答

    幾乎我們所有的應用程序都在嵌入拓撲中使用Hazelcast集羣。 由於應用程序的高負載,我們偶爾會遇到內存和cpu問題。正因爲如此,我們計劃將我們的拓撲從嵌入式改爲客戶端/服務器模式。 問題是,我們是否應該爲每個應用程序設置一個新的羣集?還是應該單個羣集爲所有客戶端應用程序提供服務 我知道可以在jvm中啓動多個hazelcast實例(http://docs.hazelcast.org/docs/3

    1熱度

    1回答

    我使用火花2 + Scala的培養基於邏輯迴歸二元分類模型與我使用import org.apache.spark.ml.classification.LogisticRegression,這是在火花2。然而新毫升API,當我通過AUROC評估的模型,我沒有找到一種方法來使用概率(0-1中的double)而不是二進制分類(0/1)。這是以前通過removeThreshold()實現的,但在ml.Lo

    0熱度

    1回答

    我有一個任務在分佈式系統中選擇實現消息代理。 Firebase雲消息傳遞是否被視爲一個?

    0熱度

    1回答

    我正在實現一個完全分散的數據庫。任何人隨時都可以上傳任何類型的數據。適合這個問題的一個好的解決方案是不可變的分佈式散列表。值是用他們的散列鍵入的。不變性確保此映射始終有效,簡化數據完整性檢查並避免同步。 爲了提供一些數據檢索設施,將實施基於標籤的分類。任何密鑰(與單個唯一值關聯)都可以使用任意標籤(任意字節序列)進行標記。爲了簡單起見,我想使用相同的分佈式散列表來存儲這個標籤哈希索引。 要實現這個

    0熱度

    1回答

    創建分佈式系統時,主要問題之一是調試問題出現的位置和方式,並且通常您唯一可用於進行事後處理的工具是可用日誌。嘗試處理來自不同系統的日誌的一種方法是在系統請求之後的generating a unique sequence number。 與此有關的一個小問題是找出在何處繪製請求開始的邊界。如果有人說這個邊界是從瀏覽器開始的,那麼使用some GUID library就會產生唯一標識符到瀏覽器。這是一

    1熱度

    1回答

    我在試驗Spark與多集羣是否可以改善慢SQL查詢。我爲master創建了兩名工作人員,他們使用本地Spark Standalone運行。是的,我將內存和內核數量減半以在本地機器上創建工作人員。我使用partitionColumn,lowerBound,UpperBound和numberPartitions指定分區爲sqlContext,以便任務(或分區)可以分佈在工作者上。我把它們描述如下(pa

    1熱度

    2回答

    我想了解Spark如何分區數據。假設我有一個像圖中那樣的執行DAG(橙色框是舞臺)。如果RDD沒有被分區,則兩個groupBy和join操作應該是非常沉重的。 那麼明智的做法是使用.partitonBy(new HashPartitioner(properValue))來P1,P2,P3和P4避免洗牌?分區現有RDD的成本是多少?何時不適合劃分現有的RDD?如果我沒有指定分區程序,Spark不會自