最後的編輯
對於有這個問題的人,得到的答案是簡單的:here。
EDIT 2
我第一次編輯,這是稍微更令人費解後實現的,所以這裏的有關的人可能會發現它在未來有用的一個新的編輯。
問題是Spark不再提供ec2目錄作爲官方發行版的一部分。如果您習慣以這種方式旋轉獨立羣集,那就是一個問題。
解決方法很簡單:
- 下載官方EC2目錄星火2.0.0文檔中詳細介紹。
- 如果您只是將dir複製到您的Spark 2.0.0並運行
spark-ec2
可執行文件以模仿Spark 1. *中的工作方式,您將可以像往常一樣啓動羣集。但是當你進入它時,你會意識到沒有任何二進制文件存在了。
- 所以,一旦你啓動你的羣集(就像你通常在步驟1中下載的
spark-ec2
一樣),你必須將包含Spark 2.0.0的本地目錄放入新創建的羣集的主節點。完成此操作後,您可以像平常一樣執行作業。
真的很簡單,但在我看來Spark的文檔可能會清楚地表明我們所有人的不正常行爲。
編輯:這實際上做正確的事。對於任何有相同問題的人:像Spark一樣從AMPLab下載ec2目錄,將這個文件夾放在本地的Spark-2.0.0目錄中,然後照常啓動腳本。顯然,它們只是爲了維護目的而將目錄解耦,但邏輯仍然相同。在Spark文檔中對此有幾句話會很高興。
我試過如下:克隆從AMPLab鏈接火花EC2分支-1.6目錄複製到我的火花2.0.0目錄,並試圖發起集羣與通常./ec2/spark-ec2
命令。也許這就是他們希望我們做的事情?
我推出了一個小型的16節點集羣。我可以在AWS儀表板中看到它,但終端已經停留在打印過去的常見SSH錯誤......差不多兩個小時。如果我發現任何有用的
Warning: SSH connection error. (This could be temporary.) Host: ec2-54-165-25-18.compute-1.amazonaws.com SSH return code: 255 SSH output: ssh: connect to host ec2-54-165-25-18.compute-1.amazonaws.com port 22: Connection refused
將更新。
進入ec2目錄意味着您從github下載Apache Spark的目錄。 – error2007s
@ error2007s問題是Spark 2.0.0中沒有ec2目錄。 UC Berkeley AMPLab鏈接中提供的說明很不清楚。 – xv70