distributed-computing

    2熱度

    1回答

    我在互聯網上發現了兩個定義: 連續一致性 - 任何執行的結果與所有處理器的操作以某種順序執行的結果相同,並且每個處理器的操作按照其程序指定的順序出現在這個序列中。 最終一致性 - 如果沒有對給定數據項進行新更新,則最終對該項的所有訪問都將返回上次更新的值。 這些定義對我來說很清楚。但是,當最終一致性不連續時,我不會得到。 示例: mem中的初始值爲0.水平軸是時間。 P1: write 1

    2熱度

    1回答

    下面的簡單腳本啓動時顯示其標題中顯示的參數。它的行爲不同,但通常其中一個工作人員掛起並打印這些「CreateSession仍在等待其他任務」消息。爲什麼新的MonitoredTrainingSession需要其他人?爲什麼其他人不等它開始呢? # #!/bin/bash # python train.py --job master --task 0 & # python train.py --

    0熱度

    1回答

    我已閱讀了redis standalone如何提供樂觀鎖定。我在redis網站上也遇到了Redlock算法,可用於分佈式鎖定。 現在我不明白爲什麼我們需要在Redis中使用分佈式鎖定(啓用集羣模式)。 在啓用分佈式模式下,我們最多可以有15個分片,每個分片具有非重疊記錄。由於沒有共享數據,分佈式鎖需要什麼? 每個共享都不會樂觀鎖定嗎?其中一個原因可能是多鍵操作,但除此之外我無法想到任何事情。 我的

    2熱度

    1回答

    我在Apache Spark上運行「連接」操作,看到沒有弱的可伸縮性。如果有人能解釋這一點,將不勝感激。我創建了兩個數據框(「a」,「b」)和(「a」,「c」),並通過第一列連接數據框。我爲「一對一」連接生成數據幀值。另外,我使用相同的分區程序來避免混洗。 數據框中的行數 - 1024 * 1024 * 16 * cores_total(cores_total - 啓動程序的核心總數)。 列「a」

    0熱度

    1回答

    我正在閱讀一致性模型,但似乎無法理解分佈式系統中因果關係的概念。我搜索了很多,但沒有找到這個概念的一個很好的解釋。人們通常會解釋爲什麼因果關係是好事等等,但基本概念是什麼。

    1熱度

    2回答

    我正嘗試從羣集的「/ user」目錄中的所有HDFS文件中獲取第一行。 目前我們有一個Hive表,其中包含有關這些文件的信息,例如擁有者,完整路徑(位置),所有者的公司ID,文件創建日期,文件讀/寫權限等。我想添加一個新列到這個包含文件完整第一行的Hive表。 這就是爲什麼我正在尋找一種方法來提取目錄中的所有HDFS文件的第一行(在我的情況下,「/ user」目錄)。我可以用Spark來實現這個嗎

    0熱度

    2回答

    我正在嘗試使用SyncReplicaOptimizer和MonitoredTraining Session在分佈式張量流中編寫同步訓練碼。 我面臨的問題是,經過一些步驟後,主人會暫停培訓,並且沒有工人開始培訓。有沒有人遇到過這個? 這是我寫的代碼。數據從張量流記錄中讀取。我遵循tensorflow網站中描述的確切方式。 def build(self): self.modelObj = M

    0熱度

    1回答

    我不從Google File Systems Paper 一個小文件由少數塊,也許只是一個明白這一點。如果許多客戶端 正在訪問相同的文件,則存儲這些塊的大塊服務器可能會成爲熱點。 小文件有什麼區別?許多客戶訪問的大文件是否可能導致問題? 我想過/閱讀以下內容: - 我認爲(糾正我,如果我錯了)是大文件的數據塊存儲在不同的大塊服務器從而分散負載。在這種情況下,1000個客戶端訪問每個塊服務器的文件的

    1熱度

    1回答

    的苗條model_deploy有DeploymentConfig參數,如num_replicas,num_ps_tasks,worker_job_name,ps_job_name,這些術語可能出現在分佈式版本,但我不認爲model_deploy是分佈式的版本,因爲它不聲明tf.train.ClusterSpec。 所以我無法理解model_deploy,它要模擬獨立計算機上的分佈式版本?而在獨立電

    0熱度

    2回答

    我需要對RDD進行排序。排序需要在我的記錄的多個領域,因此我需要一個自定義比較器。 我看到sortBy,因爲它只接受一個鍵。我碰巧http://codingjunkie.net/spark-secondary-sort/,因此使用repartitionAndSortWithinPartitions實現相同。 爲什麼sortBy接受自定義比較器並進行排序?爲什麼我必須重新分配才能使用自定義比較器?