我有2個使用spark-cassandra連接器連接到Cassandra的spark任務。 https://github.com/datastax/spark-cassandra-connector從2個不同的cassandra會話讀取/寫入同一個密鑰空間
第一份工作是使用卡夫卡在Spark中流數據並實時處理。處理完每封郵件後,它將郵件保存到Cassandra。
第二項工作是每10秒鐘從cassandra讀取數據的批處理作業。
因此,一個流式點火作業正在將數據寫入Cassandra密鑰空間,並且一次又一次地部署其他批處理作業以讀取來自SAME鍵空間的數據。我的問題是:
你能從2個spark任務中打開2個會話來讀/寫相同的keyspace嗎?
注意:我也使用相同的用戶名/密碼連接cassandra從這兩個spark工作。
你想要批量作業是累積的還是僅僅是最後10秒? – RussS
我希望它是通用的。 –