2016-07-16 84 views
0

當在YARN上使用直接kafka流時遇到「許多活動作業」問題。 (火花1.5,hadoop 2.6,CDH5.5.1)kafka帶有許多活動作業的火花流作業

問題發生在kafka幾乎沒有流量時。

從應用程序用戶界面中,我發現很多「活動」作業都會持續運行數小時。最後驅動程序「請求4個新執行者,因爲任務積壓」

但是,當查看「活動」作業的驅動程序日誌時,日誌表示作業已完成。那麼,爲什麼應用程序用戶界面顯示這項工作就像永遠一樣?

謝謝!

以下是有關「活動」作業之一的相關日誌信息。有兩個階段:reduceByKey遵循平面圖。日誌說這兩個階段都在20ms內完成,並且工作也在64ms完成。

Got job 6567 
Final stage: ResultStage 9851(foreachRDD at 
Parents of final stage: List(ShuffleMapStage 9850) 
Missing parents: List(ShuffleMapStage 9850) 
… 
Finished task 0.0 in stage 9850.0 (TID 29551) in 20 ms 
Removed TaskSet 9850.0, whose tasks have all completed, from pool 
ShuffleMapStage 9850 (flatMap at OpaTransLogAnalyzeWithShuffle.scala:83) finished in 0.022 s 
… 
Submitting ResultStage 9851 (ShuffledRDD[16419] at reduceByKey at OpaTransLogAnalyzeWithShuffle.scala:83), which is now runnable 
… 
ResultStage 9851 (foreachRDD at OpaTransLogAnalyzeWithShuffle.scala:84) finished in 0.023 s 
Job 6567 finished: foreachRDD at OpaTransLogAnalyzeWithShuffle.scala:84, took 0.064372 s 
Finished job streaming job 1468592373000 ms.1 from job set of time 1468592373000 ms 
+0

兩個月前,我們遇到了與卡夫卡類似的問題(以及其他問題)。經過數週的痛苦,我們遷移到RabbitMQ:o) – Michal

回答

0

我面臨着類似的問題。 Myn是火花流應用程序,在我唯一的行動是寫cassandra表。而且,由於某些ssl認證,此寫入失敗。理想情況下,它應該顯示這樣的批次在Streaming中失敗,但它永遠保持活躍狀態​​;在批處理內成功完成作業,理想情況下應該標記爲失敗。

相關問題