1)我們使用結構化流式處理從kafka進行消費,並將處理後的數據集寫入s3。 我們也想把處理過的數據寫到kafka前進,是否有可能從同一個流式查詢中做到這一點? (火花版本2.1.1)Spark結構化流式傳輸:多個接收器
2)在日誌中,我看到了流式查詢進度輸出,並且我有一個日誌採樣持續時間JSON,有些人可以提供更多清晰度addBatch和getBatch?
3)觸發執行 - 是否需要處理提取的數據並寫入接收器?
"durationMs" : {
"addBatch" : 2263426,
"getBatch" : 12,
"getOffset" : 273,
"queryPlanning" : 13,
"triggerExecution" : 2264288,
"walCommit" : 552
},
問候 aravias
感謝您的答覆,可以請你澄清如下 - 寫從源主題創建一個數據集時都S3與卡夫卡檢查點已爲每個匯另行規定,因此,它是公平的期望即使使用從該源創建的同一DataSet寫入這些2個差異匯,數據將從源主題讀取兩次? – user2221654
如果您有兩個接收器,這意味着您有兩個查詢。每個查詢都有自己的Kafka使用者,並獨立地從Kafka獲取數據。 – zsxwing