1
我在S3存儲桶上有幾千個壓縮的CSV文件,每個大小大約30MB(解壓縮後大約120-160MB),我想使用spark進行處理。按文件劃分的Spark分區
在我的Spark工作中,我在每一行都做了簡單的過濾器選擇查詢。
分區Spark將文件分成兩個或多個部分,然後爲每個分區創建任務。每個任務需要大約1分鐘才能完成處理125K記錄。我想避免跨多個任務對單個文件進行分區。
有沒有辦法獲取文件和分區數據,以便每個任務在一個完整文件上工作,即任務數=輸入文件數。