我構建了一個python module,我想將其導入到我的pyspark應用程序中。pyspark導入用戶定義的模塊或.py文件
我的包目錄結構是:
wesam/
|-- data.py
`-- __init__.py
簡單import wesam
我pyspark腳本的頂部,導致ImportError: No module named wesam
。我也嘗試將其壓縮並用--py-files
作爲recommended in this answer與我的代碼一起發貨,但沒有運氣。
./bin/spark-submit --py-files wesam.zip mycode.py
我也編程方式添加的文件通過this answer的建議,但我得到了同樣的錯誤ImportError: No module named wesam
。
.sc.addPyFile("wesam.zip")
我在這裏錯過了什麼?
這是非常明確的,有益的。謝謝! – watsonic
雖然這可能會起作用,但您可以通過您的(大概)全局分配的$ HOME/.bashrc有效地將env加入。 是否真的沒有辦法動態設置工作模塊的PYTHONPATH? 你想這樣做的原因是,你正在從ipython REPL進行交互,並希望發佈依賴於PYTHONPATH中NFS模塊的並行作業(請考慮python setup.py開發模式)。 – mathtick