2010-05-07 71 views
1

我們正在亞馬遜EC2上運行我們的羣集。我們使用cloudera腳本來設置hadoop。在主節點上,我們從服務開始。Hadoop安全模式恢復 - 花費很多時間

609 $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start namenode' 
610 $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start secondarynamenode' 
611 $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start jobtracker' 
612 
613 $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop dfsadmin -safemode wait' 

在從機上,我們運行下面的服務。

625 $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start datanode' 
626 $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start tasktracker' 

我們所面臨的主要問題是,HDFS安全模式恢復就是一個多小時服用更多,這是造成我們工作的完成延遲。

以下是主要的日誌消息。

1. domU-12-31-39-0A-34-61.compute-1.internal 10/05/05 20:44:19 INFO ipc.Client: Retrying connect to server: ec2-184-73-64-64.compute-1.amazonaws.com/10.192.11.240:8020. Already tried 21 time(s). 
2. The reported blocks 283634 needs additional 322258 blocks to reach the threshold 0.9990 of total blocks 606499. Safe mode will be turned off automatically. 

第一條消息在任務跟蹤器日誌中拋出,因爲作業跟蹤器未啓動。由於hdfs safemode恢復,作業跟蹤器未啓動。

第二封郵件在恢復過程中被拋出。

有什麼我做錯了嗎? 正常hdfs安全模式恢復需要多長時間? 有沒有任何加速,通過啓動任務跟蹤器,直到工作跟蹤器啓動? 在亞馬遜羣集上有沒有已知的hadoop問題?

感謝您的幫助。

回答

1

在安全模式下花費的時間通常與羣集的大小成比例。也就是說,正常時間最多隻有幾分鐘,而不是幾小時。有幾件事要檢查。

  1. 確認所有數據節點正常啓動。數據節點需要幾秒或幾分鐘才能報告大量數據塊,這很正常。請檢查數據節點日誌以瞭解啓動過程中發生的情況。
  2. 確保您有足夠的名稱節點線程(hdfs-site.xml中的dfs.namenode.handler.count)能夠處理要檢入的數據節點的數量。默認值爲10,應該是適用於最多20個節點左右的羣集。除此之外,增加這個可能是有意義的。您可能會在數據節點日誌中看到會發生重試的數據,這些數據節點日誌會指出這一點這是重試消息似乎向我顯示的內容(例如,重試21次)。

希望這會有所幫助。