2016-04-30 155 views
0

嗨基本上我們想使用KAFKA + SPARK Streaming來捕捉我們的論文中的Twitter垃圾郵件。我想用streamingKmeans。但我有非常新手和嚴肅的問題:Streaming Kmeans Spark JAVA

在這種火花StreamingKmeans Scala的例子(https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/StreamingKMeansExample.scala)沒有進行預測的一行代碼:

model.predictOnValues(testData.map(lp => (lp.label, lp.features))).print()

爲什麼我需要通過「標籤」與特徵 ?我的意思是,我錯了整個想法?我們不是要預測「標籤」嗎?如果他們是垃圾郵件,我如何預測我的推文?

回答

0

對於預測,只使用lp.features,而lp.label被認爲是延續的關鍵。引用來自docs

使用該模型對DStream的值進行預測並將其結果保留。

我在你的榜樣猜你只是想通過predictOn

+0

謝謝主席先生更換predictOnValues。我一定會嘗試這個。順便說一句,你知道我可以加入的任何gitter或懶散的房間問我的問題嗎? –

+0

謝謝你接受答案。我不會有這樣的房間,但我認爲,對於回答良好的問題,SO總是非常開放 –