0

在EC2計算機上使用Spark 2.0.2時,我一直試圖用帶分區的parquet格式將表寫入S3,但應用程序似乎永遠不會完成。我可以看到Spark已將文件寫入_temporary下的S3存儲桶/文件夾,並且一旦Spark saveAsTable JOB完成,應用程序就會掛起。使用saveAsTable將實地數據寫入S3不會完成

看看s3顯示分區是使用文件夾分區內的數據(點選)生成的,但_temporary文件夾仍然存在,並且show表格不包含新表格。

是否有其他人遇到此問題或有解決方案?

有沒有人知道在saveAsTable命令下面發生了什麼?

+0

請使用loglevel DEBUG/INFO運行作業,並檢查它卡在哪裏。 – RBanerjee

回答

0

它沒有掛起,它只是將數據從臨時存儲複製到目標,這需要大約數據/(10 MB/s)的時間。 Spark正在調用Hadoop的FileOutputCommitter來執行此操作,並且它認爲它與Filesytsem對話,其中rename()是一個即時事務。

相關問題