如果您的Hadoop已經安裝在集羣上,並希望紗線運行的火花就很容易:
第1步:查找紗主節點(即其運行資源管理器)。以下步驟僅在主節點上執行。
第2步:Download Spark tgz包並將其提取到某處。
第3步:定義這些環境變量,在.bashrc
例如:
# Spark variables
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_HOME=<extracted_spark_package>
export PATH=$PATH:$SPARK_HOME/bin
第4步:運行使用--master
選擇您的火花的工作,yarn-client
或yarn-master
:
spark-submit \
--master yarn-client \
--class org.apache.spark.examples.JavaSparkPi \
$SPARK_HOME/lib/spark-examples-1.5.1-hadoop2.6.0.jar \
100
這個特殊的例子使用了一個預編譯的示例作業,它附帶了Spark installati上。
你可以閱讀this blog post我寫了關於集羣上Hadoop和Spark安裝的更多細節。
您可以閱讀以下文章,瞭解如何編譯和運行您自己的Java Java工作。如果您想在Python或Scala中編寫作業,可以方便地使用像IPython或Zeppelin這樣的筆記本。詳細瞭解如何將這些與Hadoop-Spark羣集here一起使用。