2016-07-27 39 views
6

啓動星火2.0火花的釋放前,他們已刪除用於啓動對AWS火花EC2集羣原生支持:如何發展到今天2.0 EC2

https://spark.apache.org/releases/spark-release-2-0-0.html#removals-behavior-changes-and-deprecations

星火EC2劇本已經完全轉移到外部存儲庫託管 由加州大學伯克利分校AMPLab

在AMPLab GitHub的頁面,它包括以下說明:

https://github.com/amplab/spark-ec2/tree/branch-2.0#launching-a-cluster

進入到EC2目錄中的Apache發佈星火你 下載。

問題是2.0下載中沒有ec2文件夾。任何人都知道我可以如何在EC2中啓動Spark 2.0羣集?

在此先感謝。

+0

進入ec2目錄意味着您從github下載Apache Spark的目錄。 – error2007s

+2

@ error2007s問題是Spark 2.0.0中沒有ec2目錄。 UC Berkeley AMPLab鏈接中提供的說明很不清楚。 – xv70

回答

6

最後的編輯

對於有這個問題的人,得到的答案是簡單的:here

EDIT 2

我第一次編輯,這是稍微更令人費解後實現的,所以這裏的有關的人可能會發現它在未來有用的一個新的編輯。

問題是Spark不再提供ec2目錄作爲官方發行版的一部分。如果您習慣以這種方式旋轉獨立羣集,那就是一個問題。

解決方法很簡單:

  1. 下載官方EC2目錄星火2.0.0文檔中詳細介紹。
  2. 如果您只是將dir複製到您的Spark 2.0.0並運行spark-ec2可執行文件以模仿Spark 1. *中的工作方式,您將可以像往常一樣啓動羣集。但是當你進入它時,你會意識到沒有任何二進制文件存在了。
  3. 所以,一旦你啓動你的羣集(就像你通常在步驟1中下載的spark-ec2一樣),你必須將包含Spark 2.0.0的本地目錄放入新創建的羣集的主節點。完成此操作後,您可以像平常一樣執行作業。

真的很簡單,但在我看來Spark的文檔可能會清楚地表明我們所有人的不正常行爲。


編輯:這實際上做正確的事。對於任何有相同問題的人:像Spark一樣從AMPLab下載ec2目錄,將這個文件夾放在本地的Spark-2.0.0目錄中,然後照常啓動腳本。顯然,它們只是爲了維護目的而將目錄解耦,但邏輯仍然相同。在Spark文檔中對此有幾句話會很高興。


我試過如下:克隆從AMPLab鏈接火花EC2分支-1.6目錄複製到我的火花2.0.0目錄,並試圖發起集羣與通常./ec2/spark-ec2命令。也許這就是他們希望我們做的事情?

我推出了一個小型的16節點集羣。我可以在AWS儀表板中看到它,但終端已經停留在打印過去的常見SSH錯誤......差不多兩個小時。如果我發現任何有用的

Warning: SSH connection error. (This could be temporary.) Host: ec2-54-165-25-18.compute-1.amazonaws.com SSH return code: 255 SSH output: ssh: connect to host ec2-54-165-25-18.compute-1.amazonaws.com port 22: Connection refused

將更新。

+0

我按照https://github.com/amplab/spark-ec2/tree/branch-2.0的說法做了你所建議的區別。謝謝。 –

+0

這太混亂了。在分支,'branch-1.6'或'branch-2.0'中都沒有'ec2'目錄。以前的'ec2'目錄現在是https://github.com/amplab/spark-ec2/tree/branch-2.0的** root **目錄嗎? –

+0

剛加入https://github.com/amplab/spark-ec2/issues/89。希望它很快得到解決。 –

1

您需要從here下載所有資源。請注意,我已經提供了2.0 github分支。關於如何運行的說明可以在前面的鏈接中找到,here是我寫的關於這個主題的博客文章,可能會簡化你的生活。

希望我設法幫助! :)