2017-07-17 171 views
0

我在Spark的Spark中工作。我已成功在Windows中設置了spark和環境變量,並且我的程序在Scala IDE中運行,沒有任何問題。現在我需要使用Mahout庫函數進行機器學習。我試圖用這個鏈接讓Mahout爲windows here工作,但我沒有運氣,它不工作。我的Scala IDE說:「無法讀取」mahout -spark classpath「的輸出,是否設置了SPARK_HOME?」如何爲Windows安裝和使用Mahout?

有誰知道如何正確設置Mahout的窗口?提前致謝。

+0

請閱讀[爲什麼「有人可以幫助我?」不是一個實際的問題?](https://meta.stackoverflow.com/questions/284236/why-is-can-someone-help-me-not-在嘗試提出更多問題之前,這是一個實際問題)。 –

+0

在嘗試提出更多問題之前,請閱讀[我如何提出一個好問題?](http://stackoverflow.com/help/how-to-ask)。 –

回答

-1

該鏈接是矯枉過正。

如果你想在REPL環境上運行星火Mahout的,你應該需要做的是set some env variables.

你有沒有設置SPARK_HOME? (嘗試echo $SPARK_HOME - 我認爲這適用於Windows?)

另一種方法是使用阿帕奇Zeppelin,這是一個更好的體驗,與合作。 Tutorial

我沒有聽說過任何人在Windows上做Mahout,但它應該是直截了當的。如果/當你得到它working-請寫一個教程,我們將它張貼在網站上(我是社區成員),我們可以幫你,請在developer email list

更新伸手

如果您無法運行bin/mahout您可以install Cygwin(從而創造一個類似Unix的環境,或者你可以嘗試以下方法:

export MAHOUT_JARS=$(echo "$MAHOUT_HOME"/*.jar | tr ' ' ',')

$SPARK_HOME/bin/spark-shell --jars "$MAHOUT_JARS" \ 
    -i $MAHOUT_HOME/bin/load-shell.scala \ 
    --conf spark.kryo.referenceTracking=false \ 
    --conf spark.kryo.registrator=org.apache.mahout.sparkbindings.io.MahoutKryoRegistrator \ 
    --conf spark.kryoserializer.buffer=32k \ 
    --conf spark.kryoserializer.buffer.max=600m \ 
    --conf spark.serializer=org.apache.spark.serializer.KryoSerializer 

哪個應該用Mahout Jars /適當的spark配置啓動spark-shell,以及mahout啓動腳本(它導入庫並設置Mahout分佈式上下文) - 但是我個人建議Zeppelin(請參閱上面的教程鏈接)。

+0

恐怕,這不是直接的,因爲命令/腳本是bash腳本,只能在Linux上運行。該鏈接給了Windows有點類似的腳本,但現在已經過時了。需要有人更新腳本或另一種更簡單的方式來使用Mahout。 順便說一句我已經成功地在Windows中設置env變量。 – user3086871

0

我們在Mahout項目中不直接支持Windows。 VM現在是免費的,所以我建議爲Apache的大多數JVM(Java虛擬機)工具安裝一個。有些將在本地使用Window,但它們都在Linux上工作。然後安裝你可能在生產中使用的Nix。這有幾個好處。

可選邊緣Windows有一個新的Linux子系統PowerShell,它允許安裝像Ubuntu這樣的客戶操作系統。這將是一個實驗,因爲我沒有嘗試過。 https://msdn.microsoft.com/en-us/commandline/wsl/install_guide

不知道這是使用Container還是VM技術,但聽起來很有希望。