未使用所有工作人員的結構化流式作業

我有一個Spark 2.0.2結構化流式作業連接到Apache Kafka數據流作爲源。這項工作需要來自kafka的Twitter數據（JSON），並使用CoreNLP對數據進行註釋，例如情感，詞性標註等。它可以與當地的[*]主人一起使用。但是，當我設置獨立的Spark羣集時，只有一名工作人員用於處理數據。我有兩名具有相同能力的工人。未使用所有工作人員的結構化流式作業

當我提交我失蹤的工作時，是否需要設置一些東西？我試着在spark-submit命令中設置--num-executors，但我沒有運氣。

在此先感謝指針在正確的方向。

來源

2016-12-05 user3220598

您的意思是說，Spark不會正確分區** RDD，因此它不會均勻分配負載上的負載？然後，您可能需要指定如何在啓動時對代碼進行分區 - 請參閱https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-rdd-partitions.html –

我最終創建了更多分區的kafka源碼流。這似乎加快了處理第9部分。火花和卡夫卡有很多旋鈕。很多篩選...請參閱Kafka topic partitions to Spark streaming

來源

2016-12-06 14:39:25 user3220598

未使用所有工作人員的結構化流式作業

回答

相關問題