Spark已安裝，但未找到命令'hdfs'或'hadoop'

我是一位新的pyspark用戶。我剛剛下載並安裝了一個spark集羣（「spark-2.0.2-bin-hadoop2.7.tgz」）我想訪問文件系統（將本地文件上傳到羣集）。但是當我試圖在命令中輸入hadoop或hdfs時，它會說「找不到命令」。Spark已安裝，但未找到命令'hdfs'或'hadoop'

我要安裝hadoop/HDFS（我認爲它是建立在火花，我不明白）？

在此先感謝。

來源

2016-11-17 Austin Chen

您是否在安裝Spark之前安裝了Hadoop？如果未安裝hadoop，則安裝了Spark支持的hadoop版本.Hadoop命令不起作用。 – Bhavesh

您可以在獨立模式下以及在Apache hadoop上安裝Apache Spark。我認爲你安裝在獨立模式下，這是你無法訪問hdfs文件系統的原因。 – user4342532

@Bhavesh Legit！我犯傻了。謝謝。我認爲我下載的那個附帶HDFS –

您必須首先安裝hadoop才能訪問HDFS。按照此http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/

從apache站點選擇最新版本的hadoop。一旦你做完了hadoop安裝去火花http://d3kbcqa49mib13.cloudfront.net/spark-2.0.2-bin-hadoop2.7.tgz下載這個，提取文件。在spark-env.sh中設置java_home和hadoop_home。

來源

2016-11-17 12:40:35

謝謝。好吧然後我會安裝hadoop。我需要刪除我目前的火花嗎？另一個問題是如果我想爲我的Spark集羣使用HDFS，是否需要爲我的所有節點安裝hadoop？ –

是的，你可以刪除舊火花，我給你關於單節點spark/hadoop的答案，你需要配置multiNode hadoop，然後配置火花。 –

非常感謝！我會試試看看它是怎麼回事！ –

您不必hdfs或hadoop上類路徑所以這就是爲什麼你得到消息的原因：「沒有命令找到」。

如果您運行\yourparh\hadoop-2.7.1\bin\hdfs dfs -ls /它應該工作並顯示根內容。

但是，您可以添加hadoop/bin（hdfs，hadoop ...）命令，像這樣的東西類路徑：

export PATH $PATH:$HADOOP_HOME/bin

其中HADOOP_HOME是您的ENV。可變路徑到hadoopinstallation folder (download and install is required)

來源

2016-11-17 12:41:07 VladoDemcak

謝謝，我認爲spark安裝不會帶HDFS。我將嘗試下載並安裝hadoop，看看它是如何發展的。 –

Spark已安裝，但未找到命令'hdfs'或'hadoop'

回答

相關問題