將Python腳本工作在火花使用pyspark

-2

我開發了一個機器學習用例的python腳本，現在我想在spark的pyspark shell中執行該腳本。我能馬上做到嗎？將Python腳本工作在火花使用pyspark

2016-07-29 Abhishek Puri

要使用Spark的內存分佈式處理能力，您需要使用pyspark API來定義Spark上下文並創建RDD（彈性分佈式數據集）。標準的python代碼可以在pyspark shell中運行，但是它與在單個節點上運行代碼相同。 Spark確實有自己的機器學習庫，但是通常這些特性並不像python中那樣豐富。希望這可以幫助。

來源

2016-07-29 08:47:14 neko

我可以在pyspark中安裝所有的python模塊（如熊貓，sklearn等）嗎？如果是的話那麼該怎麼做？ –

Python模塊的安裝獨立於PySpark。假設你在Unix環境下工作。檢查您是否安裝了「pip」實用程序。例如：哪個pip 會給你的文件系統中的pip命令的位置。如果「pip」可用，您可以嘗試： pip install pandas 取決於您的網站包的設置。您可能必須手動下載所有軟件包，並使其在您的Python存儲庫中可用，以便點子安裝它們。如需進一步閱讀，這可能有所幫助：https：//docs.python.org/3/installing/ – neko

將Python腳本工作在火花使用pyspark

回答

相關問題