最近我們升級到Spark 1.6並嘗試將SparkQL用作Hive的默認查詢引擎。 Spark Gateway角色與HiveServer2添加在同一臺計算機上,啓用了Spark On Yarn Service。然而,當我運行一個查詢類似以下內容:Hive上的Spark進度條陷入10%
SET hive.execution.engine=spark;
INSERT OVERWRITE DIRECTORY '/user/someuser/spark_test_job' SELECT country, COUNT(*) FROM country_date GROUP BY country;
我們看到工作由紗線接受,資源分配和狀態卻說它正在運行,這表明10%的不斷進步,不會再往前走在Hue或Yarn UI中。 如果我們檢查Spark UI作業完成,並且實際上看到HDFS上的輸出: 有沒有人遇到過類似的問題?任何線索如何調試此類行爲? 我使用Cloudera CDH 5.12
看起來你的執行已經結束。與火花和蜂巢的會議仍然開放。帶有火花和其他類型數據的紗線的執行進度稍有不同。這通常發生在使用spark-shell時,進度始終爲10%。如果Hive在每個會話中打開這樣的連接,這可能是問題所在。特茲的工作有點不同。 –
@ThiagoBaldim有沒有辦法關閉會議?任何解決方法? – madbitloman