2016-07-08 120 views
2

我不是系統管理員,但我可能需要執行一些管理任務,因此需要一些幫助。在現有Hadoop集羣上安裝Spark

我們有一個(遠程)Hadoop集羣,人們通常在集羣上運行map-reduce作業。

我打算在羣集上安裝Apache Spark,以便可以使用羣集中的所有機器。這應該是可能的,並且我已閱讀http://spark.apache.org/docs/latest/spark-standalone.html「您可以在現有Hadoop羣集旁邊運行Spark,只需在同一臺機器上將其作爲單獨服務啓動即可......」

如果您之前完成了此操作,請給我詳細步驟以便可以創建Spark羣集。

回答

3

如果您的Hadoop已經安裝在集羣上,並希望紗線運行的火花就很容易:

第1步:查找紗主節點(即其運行資源管理器)。以下步驟僅在主節點上執行。

第2步:Download Spark tgz包並將其提取到某處。

第3步:定義這些環境變量,在.bashrc例如:

# Spark variables 
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop 
export SPARK_HOME=<extracted_spark_package> 
export PATH=$PATH:$SPARK_HOME/bin 

第4步:運行使用--master選擇您的火花的工作,yarn-clientyarn-master

spark-submit \ 
--master yarn-client \ 
--class org.apache.spark.examples.JavaSparkPi \ 
$SPARK_HOME/lib/spark-examples-1.5.1-hadoop2.6.0.jar \ 
100 

這個特殊的例子使用了一個預編譯的示例作業,它附帶了Spark installati上。

你可以閱讀this blog post我寫了關於集羣上Hadoop和Spark安裝的更多細節。

您可以閱讀以下文章,瞭解如何編譯和運行您自己的Java Java工作。如果您想在Python或Scala中編寫作業,可以方便地使用像IPython或Zeppelin這樣的筆記本。詳細瞭解如何將這些與Hadoop-Spark羣集here一起使用。