談到大數據,說我們有一個非常大的文件(GB的)說,我們知道HDFS以分散的方式是在塊存儲文件,考慮塊大小的說128 MB,有一種可能性,即某些塊將是這樣的:實現輸入拆分(HADOOP)
塊1:
_______________
這是第一行。
這是第二行。
這是第三行。
這是第四行。
這是線
塊2:
_________________
5。
這是第六行。
這是第七行。
這是第八行。
這是第九行。
這是第十行。
我知道輸入拆分的概念,以及它是一個邏輯邊界而不是物理邊界,但我從未見過它的實現。當然,我已經閱讀過描述哪些方法應該被覆蓋的文章等。但是我的第一個疑問是,這個部門真的有可能像這裏一半的記錄和一半的記錄?
如果是有關於其實施的任何想法?
非常有幫助。謝謝 ! – User9523