在YARN上調整Hadoop作業執行

一點介紹 - 我正在學習Hadoop。我已經在Hadoop（集羣）之上實現了機器學習算法，並且僅在一個小例子（30MB）上進行了測試。在YARN上調整Hadoop作業執行

幾天前，我安裝了Ambari，並創建了一個由四臺機器組成的小型集羣（主人和3名工人）。 Master擁有資源管理器和NameNode。

現在我通過增加數據量（300MB，3GB）來測試我的算法。我正在尋找一個如何調整我的迷你集羣的指針。具體來說，我想知道如何確定Ambari中的MapReduce2和YARN設置。

如何確定容器的最小/最大內存，容器的預留內存，排序分配內存，映射內存和減少內存？

問題是，我的作業執行在Hadoop上非常緩慢（並且集羣是一種迭代算法，這使得情況變得更糟）。

我有一種感覺，我的羣集設置是不好的，因爲以下原因：

HDFS上塊的大小是128MB，所以我認爲這會導致加速，但情況並非如此。我的疑惑是集羣設置（最小/最大RAM大小，地圖和減少RAM）並不好，因此即使更大的數據局部性實現它不能提高。

難道這是一個糟糕的設置的結果，還是我錯了？

來源

2016-02-12 Marko

請設置在紗線configuratins下面的性質來分配每個作業最多紗內存，它可以根據您的需要改變的33％。

yarn.scheduler.capacity.root.default.user限制因子= 1 yarn.scheduler.capacity.root.default.user限制因子= 0.33 如果您需要在此進一步的信息，請參閱以下鏈接https://analyticsanvil.wordpress.com/2015/08/16/managing-yarn-memory-with-multiple-hive-users/

2016-10-25 09:51:01 sree

回答