2017-03-08 79 views
0

我想知道如何在PySpark中爲Spark版本2+指定自定義分析器類。在1.6,我知道我能做到這一點是這樣的:指定運行Spark 2.0的pyspark的自定義分析器

sc = SparkContext('local', 'test', profiler_cls='MyProfiler') 

,但是當我在2.0創建SparkSession我沒有明確訪問 的SparkContext。有人可以請告知如何爲Spark 2.0+做這件事嗎?

回答

1

SparkSession可以使用現有的SparkContext被初始化,例如:

from pyspark import SparkContext 
from pyspark.sql import SparkSession 
from pyspark.profiler import BasicProfiler 

spark = SparkSession(SparkContext('local', 'test', profiler_cls=BasicProfiler))