2016-11-17 781 views
2

我是一位新的pyspark用戶。 我剛剛下載並安裝了一個spark集羣(「spark-2.0.2-bin-hadoop2.7.tgz」) 我想訪問文件系統(將本地文件上傳到羣集)。但是當我試圖在命令中輸入hadoop或hdfs時,它會說「找不到命令」。Spark已安裝,但未找到命令'hdfs'或'hadoop'

我要安裝hadoop/HDFS(我認爲它是建立在火花,我不明白)?

在此先感謝。

+1

您是否在安裝Spark之前安裝了Hadoop?如果未安裝hadoop,則安裝了Spark支持的hadoop版本.Hadoop命令不起作用。 – Bhavesh

+1

您可以在獨立模式下以及在Apache hadoop上安裝Apache Spark。我認爲你安裝在獨立模式下,這是你無法訪問hdfs文件系統的原因。 – user4342532

+0

@Bhavesh Legit!我犯傻了。謝謝。我認爲我下載的那個附帶HDFS –

回答

4

您必須首先安裝hadoop才能訪問HDFS。 按照此http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/

從apache站點選擇最新版本的hadoop。 一旦你做完了hadoop安裝去火花http://d3kbcqa49mib13.cloudfront.net/spark-2.0.2-bin-hadoop2.7.tgz下載這個,提取文件。在spark-env.sh中設置java_home和hadoop_home。

+0

謝謝。好吧然後我會安裝hadoop。我需要刪除我目前的火花嗎?另一個問題是如果我想爲我的Spark集羣使用HDFS,是否需要爲我的所有節點安裝hadoop? –

+0

是的,你可以刪除舊火花,我給你關於單節點spark/hadoop的答案,你需要配置multiNode hadoop,然後配置火花。 –

+0

非常感謝!我會試試看看它是怎麼回事! –

1

您不必hdfshadoop類路徑所以這就是爲什麼你得到消息的原因:「沒有命令找到」

如果您運行\yourparh\hadoop-2.7.1\bin\hdfs dfs -ls /它應該工作並顯示根內容。

但是,您可以添加hadoop/binhdfshadoop ...)命令,像這樣的東西類路徑:

export PATH $PATH:$HADOOP_HOME/bin 

其中HADOOP_HOME是您的ENV。可變路徑到hadoopinstallation folder (download and install is required)

+0

謝謝,我認爲spark安裝不會帶HDFS。我將嘗試下載並安裝hadoop,看看它是如何發展的。 –