2016-12-05 41 views
1

我有一個Spark 2.0.2結構化流式作業連接到Apache Kafka數據流作爲源。這項工作需要來自kafka的Twitter數據(JSON),並使用CoreNLP對數據進行註釋,例如情感,詞性標註等。它可以與當地的[*]主人一起使用。但是,當我設置獨立的Spark羣集時,只有一名工作人員用於處理數據。我有兩名具有相同能力的工人。未使用所有工作人員的結構化流式作業

當我提交我失蹤的工作時,是否需要設置一些東西?我試着在spark-submit命令中設置--num-executors,但我沒有運氣。

在此先感謝指針在正確的方向。

+0

您的意思是說,Spark不會正確分區** RDD,因此它不會均勻分配負載上的負載?然後,您可能需要指定如何在啓動時對代碼進行分區 - 請參閱https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-rdd-partitions.html –

回答

相關問題