在現有Hadoop集羣上安裝Spark

我不是系統管理員，但我可能需要執行一些管理任務，因此需要一些幫助。在現有Hadoop集羣上安裝Spark

我們有一個（遠程）Hadoop集羣，人們通常在集羣上運行map-reduce作業。

我打算在羣集上安裝Apache Spark，以便可以使用羣集中的所有機器。這應該是可能的，並且我已閱讀http://spark.apache.org/docs/latest/spark-standalone.html「您可以在現有Hadoop羣集旁邊運行Spark，只需在同一臺機器上將其作爲單獨服務啓動即可......」

如果您之前完成了此操作，請給我詳細步驟以便可以創建Spark羣集。

來源

2016-07-08 PTDS

如果您的Hadoop已經安裝在集羣上，並希望紗線運行的火花就很容易：

第1步：查找紗主節點（即其運行資源管理器）。以下步驟僅在主節點上執行。

第2步：Download Spark tgz包並將其提取到某處。

第3步：定義這些環境變量，在.bashrc例如：

# Spark variables 
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop 
export SPARK_HOME=<extracted_spark_package> 
export PATH=$PATH:$SPARK_HOME/bin

第4步：運行使用--master選擇您的火花的工作，yarn-client或yarn-master：

spark-submit \ 
--master yarn-client \ 
--class org.apache.spark.examples.JavaSparkPi \ 
$SPARK_HOME/lib/spark-examples-1.5.1-hadoop2.6.0.jar \ 
100

這個特殊的例子使用了一個預編譯的示例作業，它附帶了Spark installati上。

你可以閱讀this blog post我寫了關於集羣上Hadoop和Spark安裝的更多細節。

您可以閱讀以下文章，瞭解如何編譯和運行您自己的Java Java工作。如果您想在Python或Scala中編寫作業，可以方便地使用像IPython或Zeppelin這樣的筆記本。詳細瞭解如何將這些與Hadoop-Spark羣集here一起使用。

來源

2016-07-08 06:19:39 Nicomak

在現有Hadoop集羣上安裝Spark

回答

相關問題