2016-02-05 61 views
0

我們試圖通過Spark SQL連接在畫面中生成報告,但是我發現我們最終連接到配置單元元存儲。連接到畫面中的火花數據幀

如果是這種情況,這種新的Spark SQL連接的優點是什麼。有沒有辦法通過使用spark SQL的tableau連接來激發持久化的數據框架。

回答

2

這裏的問題是Tableau問題,而不是Spark問題。每次連接到數據庫時,Spark SQL Connector都會啓動一個Spark作業。 Spark作業的一部分將底層Hive表加載到Spark管理的分佈式內存中,並且每次在圖上進行更改或選擇時,刷新都必須更深入Hive Metastore以通過Spark獲取數據。 Tableau的設計就是這樣。此處唯一的選擇是通過預先緩存底層Hive表更改Tableau for Spotfire(或其他工具),Spark SQL Connector可以直接從Spark分佈式內存查詢它,從而跳過裝入步驟。 披露:我與Spotfire製造商沒有任何關係