2016-07-07 109 views
1

兩個人測試他們的計算機上Apache Spark ...星火文件系統觀察在Windows

Spark Download

我們下載星火預生成的版本Hadoop的2.6,到了文件夾/spark-1.6.2-bin-hadoop2.6/,創造了「 TMP」目錄,並運行:

$ bin/run-example org.apache.spark.examples.streaming.HdfsWordCount tmp 

我添加任意文件content1content2dssdgdg到 「TMP」 的目錄。

------------------------------------------- 
Time: 1467921704000 ms 
------------------------------------------- 
(content1,1) 
(content2dssdgdg,1) 

------------------------------------------- 
Time: 1467921706000 ms 

星火發現在我的Ubuntu 15.10的筆記本電腦上面的終端輸出的文件,但不能在我的同事的Windows 7企業版的筆記本電腦。

Spark的文件系統監視器不能在Windows上工作嗎?

回答

1

約翰,我會建議使用hadoop編譯的二進制文件的64位Windows 7託管在https://github.com/karthikj1/Hadoop-2.7.1-Windows-64-binaries。要使用這個hadoop版本,您需要使用爲用戶提供的hadoop預先構建的spark版本。確保按照https://spark.apache.org/docs/latest/hadoop-provided.html中提到的方式設置SPARK_DIST_CLASSPATH。在PATH中也放入%HADOOP_HOME%\ lib \ native。安裝完成後,您需要按照https://wiki.apache.org/hadoop/Hadoop2OnWindows提到的步驟3.1,3.3,3.4和3.5啓動本地HDFS。在運行HdfsWordCount時,您需要傳遞hdfs:/// tmp作爲目錄路徑arg。祝一切順利。