這個查詢有點像問,「我什麼時候應該用扳手?」 Greenplum可以用於許多不同的事情,答案也將是主觀的。但是,我會盡我所能,因爲你問了我的意見。
gpdb層如何影響我們現有的數據管道。這裏的數據管道是外部系統 - > talend - > hadoop-hawq - >畫面。我們希望將我們的數據管道轉換爲外部系統 - > talend - > hadoop-hawq - > greenplum - >畫面。
有很多方法可以實現數據管道您首先將數據加載到Hadoop然後將其加載到Greenplum的目標非常普遍並且效果很好。您可以使用Greenplum中的外部表格直接從HDFS中並行讀取數據。所以從Hadoop集羣到Greenplum的數據移動可以通過一個簡單的INSERT語句來實現。
INSERT INTO greenplum_customer SELECT * FROM hdfs_customer_file;
如何Greenplum的物理或邏輯將在SQL轉換和報告,以幫助。
隔離一個。通過Greenplum的單獨羣集,您可以向客戶提供分析,而不會影響Hadoop活動的性能,反之亦然。這種隔離還可以提供額外的安全層。
哪個文件格式,我應該選擇的文件存儲在GPDB而format.What都支持 HAWQ我們採用明文存儲的文件格式有利於像Avro的,實木複合地板等
gpdb寫
根據您的建議使用您的數據管道,我會根據性能決定Greenplum中的數據格式。如此大的表格,對錶格進行分區,並使用quicklz壓縮來實現列式定位。對於較小的表格,只需使其附加優化即可。對於有大量更新或刪除的表,請將其保留爲默認堆。
數據文件是如何從GPDB處理的。因此,它還能帶來更快的報告和預測分析。
Greenplum是一個MPP數據庫。存儲是「無共享」的,意味着每個節點都具有其他節點不具有的唯一數據(不包括高可用性的鏡像)。段的數據將始終位於本地磁盤上。
在HAWQ中,因爲它使用HDFS,所以段的數據不一定是本地的。第1天,當你將數據寫入HDFS時,它是本地的,但是在失敗的節點,擴展等之後,HAWQ可能不得不從其他節點獲取數據。由於Hadoop的工作原理,這使得Greenplum的性能比HAWQ更具可預測性。
有沒有辦法將HAWQ的數據推送到Greenplum中?我們是 正在尋找指導如何將我們的報告用例從 HAWQ INTO Greenplum轉移。
推,不,但拉,是的。正如我上面提到的,您可以在Greenplum中創建一個外部表來從HDFS中選擇數據。您也可以在Greenplum中創建可寫外部表來將數據推送到HDFS。
感謝Jon提供的信息。它可以幫助我理解。所以,我們決定升級gpdb。 – NEO
從4.3.4.1升級到4.3.8.X。我們是否應該去追求它。或任何東西4.3.X是好的。我們需要你的建議。 – NEO
4.3.5是一個重要的升級,如果你還安裝了gptext,你還需要升級擴展。確保在升級之前先用gpcrondump備份數據庫。但升級到最新版本將爲您帶來新功能和更多穩定性,因此我始終建議您使用最新版本。 –