爲了提高性能(例如對於連接),建議首先計算表靜態值。在蜂巢或黑斑羚中計算表格統計信息是否會加速apache的火花?
在蜂巢我可以做::
analyze table <table name> compute statistics;
在帕拉:
compute stats <table name>;
難道我的火花的應用程序(從蜂房表讀數)也從預先計算的統計數據中受益?如果是的話,我需要運行哪一個?他們是否都將這些統計數據保存在蜂房的Metastore中?我使用Cloudera的火花1.6.1 5.5.4
注: 在火花1.6.1(https://spark.apache.org/docs/1.6.1/sql-programming-guide.html)爲參數spark.sql.autoBroadcastJoinThreshold
的文檔,我發現一個提示:
注意,目前的統計數據僅支持Hive Metastore 表,其中命令ANALYZE TABLE COMPUTE STATISTICS noscan已運行。