2017-01-23 115 views
2

我對火花和熊貓有Noob問題。我想用熊貓,numpy等..與火花,但是當我導入一個庫我有一個錯誤。你能幫我嗎? 這是我的代碼使用熊貓與星火

from pyspark import SparkContext, SQLContext 
from pyspark import SparkConf 
import pandas 

# Config 
conf = SparkConf().setAppName("Script") 
sc = SparkContext(conf=conf) 
log4j = sc._jvm.org.apache.log4j 
log4j.LogManager.getRootLogger().setLevel(log4j.Level.ERROR) 
sqlCtx = SQLContext(sc) 

# Importation of csv out of HDFS 
data_name = "file_on_hdfs.csv" 
data_textfile = sc.textFile(data_name) 

這是錯誤:

ImportError: No module named pandas 

怎麼用熊貓嗎?這不是本地模式。

回答

4

Spark有它自己的Dataframe可以從RDD創建的對象。

您仍然可以使用numpy等庫,但必須先安裝它們。

+0

它可以導入或安裝或與火花提交推包? – Zop

+1

該軟件包應該可用於'pyspark'服務器端。 'spark-submit'只發送你的腳本,而不是它的依賴項,庫等。 – rtkaleta

1

檢查您是否在您的包裝箱中安裝了熊貓,並在終端中使用pip list|grep 'pandas'命令。如果您有匹配,請執行apt-get update。 如果您使用的是多節點羣集,那麼您需要在所有客戶端框中安裝熊貓。

不如試試數據幀的火花版本,但如果你還是喜歡用大熊貓上述方法將工作

3

您可以使用Apache箭這個問題。

Apache Arrow

它的最初版本,但將在未來更強大(看到)。

對於安裝: click