2017-06-01 138 views
2

是否存在使用spark-submit提交python腳本與使用python可執行文件(和導入SparkSession)簡單運行.py文件的優點/缺點或不同用例,如下所示?python腳本中spark-submit與SparkSession的區別?

from pyspark.sql import SparkSession 
spk = SparkSession.builder.master(master).getOrCreate() 

基本上是通過python運行腳本,並沒有任何差別不是火花提交。

+0

[spark-submit和pyspark有什麼不同?](https://stackoverflow.com/questions/26726780/what-is-the-difference-between-spark-submit-and-pyspark) – vmg

+0

pyspark在火星殼內運行,是嗎?在這種情況下,我只想通過'''python'''運行腳本,而不是spark-submit。 –

回答

0

​​大多是一種方便的方法。它允許您在提交時設置所有需要的配置,環境變量和其他選項。

它還允許您設置JVM選項,這些選項不能在正在運行的虛擬機上設置。由於一旦創建了Spark配置,就會初始化JVM,所以不能從正在運行的Python進程執行同樣的操作。

+0

在並行運行後,它也顯示,通過spark-submit,logging默認情況下更爲詳細,並且spark-submit也處理清理雜事,包括失敗和成功。 –

相關問題