2016-12-05 134 views
0

我是Spark的新手,並試圖儘可能多地讀取&研究。目前我被困在這個上,我花了幾天的時間來解決。我已經在3臺機器(1臺主機,2臺從機)上成功建立了Spark Clusters,並運行了一些示例。現在我正在嘗試編寫一個Python應用程序,它將讀取csv文件,然後將每行分成一個JSON文件並將其全部上傳到S3。這裏是我的問題:將Spark數據框分割爲每一行並將其轉換爲JSON - Python

  1. 我已經轉換的CSV星火據幀,使用SparkSession.read.csv(),我怎麼分割這個數據框爲多行並轉換爲JSON?我已經讀過Spark DataFrame具有toJSON函數,但適用於整個DataFrame,那麼如何在DataFrame的每一行而不是整個DataFrame上使用thi函數?

  2. 如何在我的應用程序中應用分佈式系統,給出我有2個從站和一個主站?或者,我的應用程序是否會自動將工作分成更小的部分並分配給從服務器?

  3. 如何將轉換後的JSON轉換爲S3,一些示例代碼指導將對我有所幫助。

我會非常感謝,如果你能幫助我,謝謝你的幫助提前。

回答

1
  1. 要閱讀json文件,可以使用sqlContext.jsonFile()。您可以使用常規SQL查詢進行處理。您可以從更多信息中看到here
  2. 火花在分區上工作。您的數據將被分成分區並在執行程序上運行。火花將根據您使用的模式進行。不確定您是否使用YARN。
  3. 在python中,可以使用boto3將數據保存到amazon s3中。它是一個非常易於使用的軟件包。看here
+0

所有的觀點都是正確的,並幫助我找到答案很多。謝謝。 – Leo

相關問題