我對火花和熊貓有Noob問題。我想用熊貓,numpy等..與火花,但是當我導入一個庫我有一個錯誤。你能幫我嗎? 這是我的代碼使用熊貓與星火
from pyspark import SparkContext, SQLContext
from pyspark import SparkConf
import pandas
# Config
conf = SparkConf().setAppName("Script")
sc = SparkContext(conf=conf)
log4j = sc._jvm.org.apache.log4j
log4j.LogManager.getRootLogger().setLevel(log4j.Level.ERROR)
sqlCtx = SQLContext(sc)
# Importation of csv out of HDFS
data_name = "file_on_hdfs.csv"
data_textfile = sc.textFile(data_name)
這是錯誤:
ImportError: No module named pandas
怎麼用熊貓嗎?這不是本地模式。
它可以導入或安裝或與火花提交推包? – Zop
該軟件包應該可用於'pyspark'服務器端。 'spark-submit'只發送你的腳本,而不是它的依賴項,庫等。 – rtkaleta