將Spark數據框分割爲每一行並將其轉換爲JSON - Python

我是Spark的新手，並試圖儘可能多地讀取&研究。目前我被困在這個上，我花了幾天的時間來解決。我已經在3臺機器（1臺主機，2臺從機）上成功建立了Spark Clusters，並運行了一些示例。現在我正在嘗試編寫一個Python應用程序，它將讀取csv文件，然後將每行分成一個JSON文件並將其全部上傳到S3。這裏是我的問題：將Spark數據框分割爲每一行並將其轉換爲JSON - Python

我已經轉換的CSV星火據幀，使用SparkSession.read.csv()，我怎麼分割這個數據框爲多行並轉換爲JSON？我已經讀過Spark DataFrame具有toJSON函數，但適用於整個DataFrame，那麼如何在DataFrame的每一行而不是整個DataFrame上使用thi函數？
如何在我的應用程序中應用分佈式系統，給出我有2個從站和一個主站？或者，我的應用程序是否會自動將工作分成更小的部分並分配給從服務器？
如何將轉換後的JSON轉換爲S3，一些示例代碼指導將對我有所幫助。

我會非常感謝，如果你能幫助我，謝謝你的幫助提前。

來源

2016-12-05 Leo

要閱讀json文件，可以使用sqlContext.jsonFile（）。您可以使用常規SQL查詢進行處理。您可以從更多信息中看到here
火花在分區上工作。您的數據將被分成分區並在執行程序上運行。火花將根據您使用的模式進行。不確定您是否使用YARN。
在python中，可以使用boto3將數據保存到amazon s3中。它是一個非常易於使用的軟件包。看here

來源

2016-12-05 05:46:19 Ramzy

所有的觀點都是正確的，並幫助我找到答案很多。謝謝。 – Leo

將Spark數據框分割爲每一行並將其轉換爲JSON - Python

回答

相關問題