我是一位新的pyspark用戶。 我剛剛下載並安裝了一個spark集羣(「spark-2.0.2-bin-hadoop2.7.tgz」) 我想訪問文件系統(將本地文件上傳到羣集)。但是當我試圖在命令中輸入hadoop或hdfs時,它會說「找不到命令」。Spark已安裝,但未找到命令'hdfs'或'hadoop'
我要安裝hadoop/HDFS(我認爲它是建立在火花,我不明白)?
在此先感謝。
我是一位新的pyspark用戶。 我剛剛下載並安裝了一個spark集羣(「spark-2.0.2-bin-hadoop2.7.tgz」) 我想訪問文件系統(將本地文件上傳到羣集)。但是當我試圖在命令中輸入hadoop或hdfs時,它會說「找不到命令」。Spark已安裝,但未找到命令'hdfs'或'hadoop'
我要安裝hadoop/HDFS(我認爲它是建立在火花,我不明白)?
在此先感謝。
您必須首先安裝hadoop才能訪問HDFS。 按照此http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/
從apache站點選擇最新版本的hadoop。 一旦你做完了hadoop安裝去火花http://d3kbcqa49mib13.cloudfront.net/spark-2.0.2-bin-hadoop2.7.tgz下載這個,提取文件。在spark-env.sh中設置java_home和hadoop_home。
謝謝。好吧然後我會安裝hadoop。我需要刪除我目前的火花嗎?另一個問題是如果我想爲我的Spark集羣使用HDFS,是否需要爲我的所有節點安裝hadoop? –
是的,你可以刪除舊火花,我給你關於單節點spark/hadoop的答案,你需要配置multiNode hadoop,然後配置火花。 –
非常感謝!我會試試看看它是怎麼回事! –
您不必hdfs
或hadoop
上類路徑所以這就是爲什麼你得到消息的原因:「沒有命令找到」。
如果您運行\yourparh\hadoop-2.7.1\bin\hdfs dfs -ls /
它應該工作並顯示根內容。
但是,您可以添加hadoop/bin
(hdfs
,hadoop
...)命令,像這樣的東西類路徑:
export PATH $PATH:$HADOOP_HOME/bin
其中HADOOP_HOME
是您的ENV。可變路徑到hadoop
installation folder (download and install is required)
謝謝,我認爲spark安裝不會帶HDFS。我將嘗試下載並安裝hadoop,看看它是如何發展的。 –
您是否在安裝Spark之前安裝了Hadoop?如果未安裝hadoop,則安裝了Spark支持的hadoop版本.Hadoop命令不起作用。 – Bhavesh
您可以在獨立模式下以及在Apache hadoop上安裝Apache Spark。我認爲你安裝在獨立模式下,這是你無法訪問hdfs文件系統的原因。 – user4342532
@Bhavesh Legit!我犯傻了。謝謝。我認爲我下載的那個附帶HDFS –