Apache Kafka縮放使用分區的主題

我們開始使用Apache Kafka將Timeseries數據保存到Timeseries數據庫中。我們開始的只是一個主題，一個生產者寫這個主題，一個消費者閱讀這個主題，並將數據轉儲到Timeseries數據庫。Apache Kafka縮放使用分區的主題

我們有3個經紀人實例，我們在第一次嘗試中注意到的是，製作人在向主題寫消息時速度非常快。在30分鐘內，我們有大約150萬條消息。消費者每秒只能做300條消息。

我們的下一個方法是分割主題並擁有更多的消費者實例（等於分區數量）。這明顯改善了消費者的寫入速度。現在我的問題是：

如果我將主題分區設置爲6，但我只有3個代理實例，會發生什麼情況。哪個經紀人實例將成爲分區1到6的領導者？
是否有一個公式來確定我需要多少個分區？由於這是我們的測試環境，我們可以使用它並進行縮放。我們可能無法在我們的生產環境中做同樣的事情。那麼如何確定分區大小？

來源

2016-04-29 sparkr

分區在您的經紀人中間分配。不可能知道哪個經紀人會被選爲某個分區的領導者 - 並且可能會隨着時間而改變。根據您使用哪個版本的Kafka和您使用的消費者API，您的消費者可能會或可能不會自行發現分區領導。有了SimpleConsumer，你必須自己找到分區領導，並在代碼中響應新的領導選舉（而不是由API自動處理）。

至於分區的數量 - 除此之外沒有真正的「公式」：除了分區之外，您可以沒有更多的並行性。如果你有4個分區和5個消費者，其中一個消費者會餓死。我通常使用數字12或60或其倍數作爲大型主題的分區數量。一些容易和乾淨地在不同數量的消費者之間劃分的東西。

另外，請注意，您稍後可以更改分區的數量，但有一些注意事項。請參閱this answer瞭解警告的方式和注意事項。

來源

2016-04-30 10:28:30

我的問題是哪個經紀商會有領導者分區？我在這裏有6個分區和3個經紀人。那麼每個經紀人都有2個分區作爲主分區嗎？ – sparkr

是的，它可以平衡它們。嘗試一下。它還取決於創建主題時正在運行的內容。如果只有一個經紀人在運行，它只會讓領導者去那個經紀人。然後，如果您將第二位經紀人備份起來，它可能會或可能不會自動重新平衡分區領導。有些設置可以控制這種情況（不要從頭頂回收）以及命令行工具來強制重新平衡甚至使設置不平衡。 –

Apache Kafka縮放使用分區的主題

回答

相關問題