Spark結構化流式窗口（）函數 - GeneratedIterator增長超過64 KB

我正在運行下面的使用Spark Structured Streaming方法的Sliding Window SQL查詢。Spark結構化流式窗口（）函數 - GeneratedIterator增長超過64 KB

"SELECT WINDOW(record_time, \"120 seconds\",\"1 seconds\"), COUNT(*) FROM records GROUP BY WINDOW(record_time, \"120 seconds\",\"1 seconds\")";

我收到以下錯誤，如果我把窗口大小爲120秒，間隔滑動至1秒時：

org.codehaus.janino.JaninoRuntimeException：法碼「agg_doAggregateWithKeys $（ Lorg /阿帕奇/火花/ SQL /催化劑/表情/ GeneratedClass $ GeneratedIterator）「類的「V org.apache.spark.sql.catalyst.expressions.GeneratedClass $ GeneratedIterator」增長超過64 KB

對於窗口（90s，1s）和Window（120s，2s）其w好的。

即使我得到了這個錯誤，但仍然得到了控制檯上查詢的輸出。

這好嗎？我應該忽略這個錯誤嗎？

來源

2017-03-01 user3032258

我還有幾個發現：如果我使用來自Kafka的readStream（）運行它，上面的查詢會給出錯誤。製作人正在放入.csv文件中的數據。但是，如果我直接在.csv文件上運行相同的查詢，則不會有這樣的錯誤，使用read（）或readStream（）。 – user3032258

只要嘗試說'窗口'來代替。所以，你的查詢應如下所示：

SELECT window, COUNT(*) FROM records GROUP BY WINDOW(record_time, "120 seconds","1 seconds");

希望它能幫助！

來源

2018-01-07 00:29:36 DataGeek

Spark結構化流式窗口（）函數 - GeneratedIterator增長超過64 KB

回答

相關問題