cluster-computing

0熱度

1回答

我正在Bluehive中運行代碼。代碼有一些參數N.如果N很小，那麼代碼運行得很好。但是，對於稍微大的N（例如N = 10）的碼被運行數個小時，並在結束時我收到以下錯誤消息： slurmstepd: error: Exceeded step memory limit at some point. 其中我提交批處理文件有以下代碼： #!/bin/bash #SBATCH -o log.%a.t

2熱度

2回答

可以通過互聯網使用卡夫卡嗎？

卡夫卡適合網絡使用嗎？更確切地說，我想要的是將kafka主題公開爲「公共接口」，然後外部消費者（或生產者）可以連接到它。可能嗎？如果我想在內部和外部網絡中使用集羣，我聽說有問題，因爲很難配置advertised.host.name。真的嗎？我還必須公開zookeepr嗎？我認爲新的消費者/製片人api不再需要這一點。

0熱度

1回答

卡桑德拉多相DC：需要寫在本地和從任何DC

我的項目需要閱讀是這樣的。我們使用多數據中心（DC）cassandra集羣。在寫入集羣期間，我只希望LOCAL DC在其節點上執行寫操作，因爲我們已經根據寫入啓動的源，將寫請求路由到所需的DC。所以，我只需要LOCAL DC來處理寫操作，而不需要其他DC來在其節點上執行寫操作。但後來憑藉跨DC的節點之間的複製，我希望跨數據中心複製寫入的數據。當我首先限制寫入只有一個DC時，是否可以跨DC進行這種復

1熱度

1回答

爲什麼集羣模式比Spark中的客戶端模式慢得多？

我有使用GraphFrame創建的15k圖形對象。這些圖很小（10-100個節點，每個圖10-100個邊）。我只需要在每個圖上應用最短路徑和某些其他算法。我目前的實現是使用for循環遍歷所有15k圖形。令人驚訝的是，集羣模式比客戶端模式慢得多。我處理了10張圖。以下是客戶端模式和集羣模式的性能指標。我試圖找出爲什麼集羣模式比客戶端模式慢。我無法理解指標。配置爲羣集（火花獨立）配置爲客戶端模式

1熱度

1回答

如何爲每個任務設置1 gpu的slurm/salloc，但讓工作使用多個gpus？

我們正在尋找與slurm salloc GPU分配一些意見。目前，給定： % salloc -n 4 -c 2 -gres=gpu:1 % srun env | grep CUDA CUDA_VISIBLE_DEVICES=0 CUDA_VISIBLE_DEVICES=0 CUDA_VISIBLE_DEVICES=0 CUDA_VISIBLE_DEVICES=0 但是，我們希望不僅僅

0熱度

1回答

紗線簇上的spark scala csv export

我有一個5個節點的簇，部署了YARN。 2個Namenodes和3個Datanodes。雖然我的代碼是在spark中提交的。我試圖將數據導出到csv，但是當我這樣做時，數據會被導出到2個datanodes，並且兩個導出文件夾中都會有不同的內容。一個會有_SUCCESS文件，另一個會有導出的csv（part- *）。我的應用程序結束了一個空白路徑，因爲有時具有_SUCCESS文件的節點和運行應用程序

0熱度

1回答

Web服務器使用tomee多個ejb服務器呼叫

我正在使用TomEE服務器，我想將我的ejb應用程序部署到多個實例並希望使用Web應用程序訪問它。我想在Web應用程序和ejb應用程序之間添加負載平衡器。我怎樣才能做到這一點。我已經有一個使用mod_jk的web應用程序多個實例的負載平衡器，但我需要在INITIALCONTEXT屬性文件中的某處配置此配置。附上我想要構建我的應用程序體系結構的照片。 architecture pic 我在這

0熱度

1回答

DRBD - 裂腦問題

使用帶有起搏器的2節點DRBD（v9.0）集羣。 STONITH已禁用。我已經重新啓動了我的節點2（它充當主節點）。然後重新啓動後，我無法登錄，並顯示發生了裂腦。我該如何避免這種情況？如果我啓用了STONITH，它會被修復嗎？如果兩個節點都寫入了一些數據會發生什麼？

0熱度

1回答

如何將janusgraph與現有的hadoop集羣進行整合

我是大數據新手，目前正努力將janusgraph整合到現有的hadoop集羣。你能告訴我怎麼做，或者請提供一個資源鏈接。

2熱度

1回答

在MapReduce中使用更多Reducer的優缺點是什麼？

MapReduce編程全部是關於並行處理的，那麼爲什麼我們在很多情況下從單個reducer開始。在MapReduce中增加更多減速器有哪些優缺點？