2017-03-01 124 views
1

我正在運行下面的使用Spark Structured Streaming方法的Sliding Window SQL查詢。Spark結構化流式窗口()函數 - GeneratedIterator增長超過64 KB

"SELECT WINDOW(record_time, \"120 seconds\",\"1 seconds\"), COUNT(*) FROM records GROUP BY WINDOW(record_time, \"120 seconds\",\"1 seconds\")"; 

我收到以下錯誤,如果我把窗口大小爲120秒,間隔滑動至1秒時:

org.codehaus.janino.JaninoRuntimeException:法碼「agg_doAggregateWithKeys $( Lorg /阿帕奇/火花/ SQL /催化劑/表情/ GeneratedClass $ GeneratedIterator)「類的 「V org.apache.spark.sql.catalyst.expressions.GeneratedClass $ GeneratedIterator」 增長超過64 KB

對於窗口(90s,1s)和Window(120s,2s)其w好的。

即使我得到了這個錯誤,但仍然得到了控制檯上查詢的輸出。

這好嗎?我應該忽略這個錯誤嗎?

+0

我還有幾個發現:如果我使用來自Kafka的readStream()運行它,上面的查詢會給出錯誤。製作人正在放入.csv文件中的數據。但是,如果我直接在.csv文件上運行相同的查詢,則不會有這樣的錯誤,使用read()或readStream()。 – user3032258

回答

0

只要嘗試說'窗口'來代替。所以,你的查詢應如下所示:

SELECT window, COUNT(*) FROM records GROUP BY WINDOW(record_time, "120 seconds","1 seconds");

希望它能幫助!