1

從apache網站下載後,我已經整合了kafka和spark spark。但是,我想爲我的大數據解決方案使用Datastax,並且我看到您可以輕鬆集成Cassandra和Spark。如何在Datastax企業版中集成kafka和spark流?

但是我在最新版本的Datastax企業版中看不到任何卡夫卡模塊。如何在這裏整合kafka和spark spark?

我想要做的主要是:

  • 啓動必要的經紀人和服務器
  • 開始卡夫卡生產
  • 開始卡夫卡消費者
  • 連接火花流卡夫卡的經紀人,並從那裏接收消息

但是,在快速谷歌搜索後,我看不到任何卡夫卡一直在我與數據傳輸企業合併。

我該如何做到這一點?我對datastax和kafka非常陌生,所以我需要一些建議。語言首選項 - Python。 謝謝!

+0

你想使用火花流從卡夫卡看?爲什麼你會關心它是否是Datastax企業的一部分? –

+0

我想給卡夫卡提供消息,並從火花中讀取它。 kafka->火花。我關心,因爲我不必擔心外部配置,設置kafka和連接依賴關係。這是datastax出名的主要原因。 – HackCode

+0

這並非如此,datastax採用了cassandra,他們正在提供DA解決方案。無論如何,如果你不需要自己管理卡夫卡經紀人,你可以使用克勞德拉的解決方案(不推薦),因爲在這個特定情況下,利弊大於利弊。你的問題是關於集成(代碼方面)。問題很混亂,我相信你需要更具體以獲得更有幫助的答案 –

回答

1

好問題。 DSE不包含開箱即用的Kafka,您必須自己設置kafka,然後設置您的火花流作業以從kafka中讀取。由於DSE會捆綁spark,因此請使用DSE Spark來運行Spark流作業。

您可以使用直接kafka API或kafka接收器,更多詳情here進行折衷。 TL; DR直接API不需要HA的WAL或動物園管理員。

下面是如何配置卡夫卡到卡里資產階級與DSE的示例:

https://github.com/CaryBourgeois/DSE-Spark-Streaming/tree/master