Hadoop輸出和流水線寫入

幾個問題： 1. File_Bytes_Read和HDfs_bytes_read之間有什麼區別。 2.當客戶端即將寫入文件hdfs時，如果在將第一個塊傳遞給第一個Datanode時，假設它是DN1（如果DN1失敗），則客戶端仍會最終寫入或丟失。名稱節點在這個階段如何處理？感謝小號Hadoop輸出和流水線寫入

來源

2014-03-13 user2345694

我能回答的問題1

File_Bytes_Read：是本地文件系統讀取的字節數。假設所有的地圖輸入數據都來自HDFS，那麼在地圖階段它應該是零。另一方面，reducer的輸入文件是從map-side磁盤獲取的reduce-side本地磁盤上的數據。因此，它表示減速器讀取的總字節數。

HDfs_bytes_read：讀取的字節數：表示作業啓動時映射器從HDFS讀取的字節數。這些數據不僅包括源文件的內容，還包括關於分割的元數據。

來源

2014-05-10 16:43:47

Hadoop輸出和流水線寫入

回答

相關問題