0
假設我有10個輸入文件,每個文件大小爲幾GB,我試圖將它們讀入RDD並執行映射/縮減操作。在執行操作之前,Spark必須讀取所有輸入文件嗎?
顯然,reduce
階段將不得不等待所有10個文件完全加載。但map
階段可以更快開始嗎?
換句話說,Spark是否會逐個創建每個分區,然後立即開始對該分區的數據運行map
操作......還是等待所有數據完全從所有10個文件中加載完畢,然後才啓動在所有分區上同時運行map
?