2017-11-10 163 views
0

我正在使用Java Spark API,對於KafkaUtils.createDirectStream,我想跟蹤偏移量。 有一個名爲fromOffset的參數,它記錄了Kafka主題分區中的偏移量。對於第一次運行,我不知道將有多少個分區,那麼如何設置此參數? 並且我是否需要在Kafka參數中設置「auto.offset.reset」? 如果是,它會影響我的代碼從已知的偏移中恢復嗎?Spark Streaming Kafka初始偏移量

+0

如果您不知道分區數量,您如何知道每個分區的起始偏移量? – Mariusz

+0

如果我將「auto.offset.reset」設置爲最小或最大,我仍然可以從每個紅色獲得分區和偏移信息 – peng

回答

0

你有兩種選擇:

  • 的情況下,你沒有關於partions的任何信息,不提供參數去createDirectStream。 createDirectStream方法有幾個實踐。在這種情況下,或者每個topicPartition將使用最早或最近的偏移量(基於auto.offset.reset param)

  • 您可以使用通常的kafka API找到分區,偏移量。例如外觀How to find the offset range for a topic-partition in Kafka 0.10?

+0

謝謝!反正Kafka 0.8有嗎?因爲0.10是實驗性的API – peng

相關問題