2017-08-28 80 views
-1

我使用Python 2.7使用pyspark不工作時,pyspark地圖用戶定義的函數編寫外腳本

我使用一個用戶定義的函數,它工作得很好,當我使用它像這樣

def func(x): 
    pass 

RDD.map(lambda x:func(x)) 

但是當我創建另一個腳本調用utils的內部功能和使用

from utils import func as func 
RDD.map(lambda x:func(x)) 

我得到一個錯誤

ImportError: No module named utils

如何從用戶定義的模塊導入功能並將其與RDD映射一起使用?

感謝

回答

1

在命令行:

spark-submit --py-files utils.py ... 

或者腳本:

sc.addPyFile('file:///path/to/utils.py') 
+2

請不要忘記添加一些文本,說明你的答案 - 爲什麼它的工作原理,以及它如何解決原始問題 –

+0

如何使用spark上下文將它集成到python腳本中? – thebeancounter