2
我成功讀取S3中存儲的文本文件,並使用Spark數據框以ORC格式將其寫回到S3。 - inputDf.write().orc(outputPath);
我無法做的是轉換爲快速壓縮的ORC格式。我已經試着在設置編解碼器的時候給出選項,但Spark仍然是作爲正常的ORC編寫的。如何使用Spark Dataframes實現使用Snappy壓縮到S3的ORC格式書寫?使用Snappy壓縮以ORC格式寫入Spark數據幀
見https://issues.apache.org/jira/browse/SPARK-13543 –
默認(zlib的)可能比斯納皮更好反正:https://community.hortonworks.com/questions/4067 /snappy-vs-zlib-pros-and-cons-for-each-compression.html –
@MarkRajcok謝謝,這意味着我只能在使用Spark 2.0時使用.option壓縮ORC格式。 有沒有其他方法可以建議我可以在哪裏壓縮輸出。我正在使用Spark 1.6的亞馬遜EMR – Karshit