背景執行順序流
我有一個火花流應用,從室壁運動讀取數據 - >不就可以了窗口 - >將數據保存到外部系統(通過做foreachRDD )。
最近我觀察到,我的窗戶被foreachRDD一個接一個地佔用。這意味着如果我的應用程序中有突然突發的數據(因此窗口的foreachRDD需要很長時間),那麼窗口將在處理之前堆疊在隊列中(而羣集中的大多數計算機處於空閒狀態)。
問題
這是一個語義火花流的是窗口正在處理一個接一個?如果是的話,是否有任何方法可以在spark中並行執行「窗口化」操作,以便窗口同時被foreachRDD使用?