我剛開始研究hadoop,並在經歷了一些掙扎之後讓wordcount示例在羣集(兩個datanode)上工作。hadoop - 地圖/減少功能
但我有一個關於Map/Reduce功能的問題。我在地圖上看到,輸入文件/數據被轉換成另一種形式的數據,可以在縮減步驟中進行高效處理。
假設我有四個輸入文件(input1.txt,input2.txt,input3.txt,input4.txt)並且想要讀取輸入文件並轉換爲另一種數據形式以減少。
所以這裏是問題。如果我在集羣環境(兩個datanode)上運行應用程序(wordcount),這四個輸入文件是在每個datanode上讀取還是在每個datanode上讀取兩個輸入文件?我該如何檢查哪個文件在哪個datanode上讀取?
還是映射(在每個datanode上)讀取文件作爲某種塊而不是讀取單個文件?
這是否意味着如果塊大小較大(可能超過500MB),塊是由映射器(提交給兩個datanodes)讀取的? – user826323