我正在運行下面的使用Spark Structured Streaming方法的Sliding Window SQL查詢。Spark結構化流式窗口()函數 - GeneratedIterator增長超過64 KB
"SELECT WINDOW(record_time, \"120 seconds\",\"1 seconds\"), COUNT(*) FROM records GROUP BY WINDOW(record_time, \"120 seconds\",\"1 seconds\")";
我收到以下錯誤,如果我把窗口大小爲120秒,間隔滑動至1秒時:
org.codehaus.janino.JaninoRuntimeException:法碼「agg_doAggregateWithKeys $( Lorg /阿帕奇/火花/ SQL /催化劑/表情/ GeneratedClass $ GeneratedIterator)「類的 「V org.apache.spark.sql.catalyst.expressions.GeneratedClass $ GeneratedIterator」 增長超過64 KB
對於窗口(90s,1s)和Window(120s,2s)其w好的。
即使我得到了這個錯誤,但仍然得到了控制檯上查詢的輸出。
這好嗎?我應該忽略這個錯誤嗎?
我還有幾個發現:如果我使用來自Kafka的readStream()運行它,上面的查詢會給出錯誤。製作人正在放入.csv文件中的數據。但是,如果我直接在.csv文件上運行相同的查詢,則不會有這樣的錯誤,使用read()或readStream()。 – user3032258