0
例子來說明這個問題 -hadoop - 如果一個文件只有一個記錄,並且文件的大小大於塊大小,輸入將如何形成分割?
我有500MB大小的文件(input.csv)
該文件包含只有一行(記錄)在它
因此,如何該文件將存儲在HDFS塊中以及如何計算輸入分割?
例子來說明這個問題 -hadoop - 如果一個文件只有一個記錄,並且文件的大小大於塊大小,輸入將如何形成分割?
我有500MB大小的文件(input.csv)
該文件包含只有一行(記錄)在它
因此,如何該文件將存儲在HDFS塊中以及如何計算輸入分割?
您可能需要檢查此鏈接:How does Hadoop process records split across block boundaries?請注意上述的「遠程讀取」。
您的問題中提到的單個記錄將存儲在多個塊中。但是,如果您使用TextInputFormat進行讀取,則映射器必須跨塊執行遠程讀取以處理記錄。
謝謝...這是有幫助:) –