2016-05-17 104 views
2

我們有用於零售行業數據的用例。我們正在製作EDW。什麼時候應該使用Greenplum數據庫與HAWQ?

我們正在從HAWQ進行報告。但是我們希望將我們的MPP數據庫從Hawq轉移到Greenplum。基本上,我們想對當前的數據管道進行更改。

我們對gpdb困惑點:

  • 如何gpdb層會影響到我們現有的數據管道。這裏的數據 管道是外部系統 - > talend - > hadoop-hawq - >畫面。我們 想要將我們的數據管道轉換爲外部系統 - > talend - > hadoop-hawq - > greenplum - >畫面。
  • Greenplum如何在物理或邏輯上幫助SQL 轉換和報告。

  • 哪個文件格式,我應該選擇的文件存儲在GPDB而format.What都支持
    HAWQ我們採用明文存儲的文件格式有利於像Avro的,實木複合地板等

  • gpdb寫
  • 數據文件是如何從GPDB處理的。所以,它也帶來了更快的報告和預測分析。

  • 有沒有辦法將HAWQ中的數據推送到Greenplum中?我們是
    尋找指導如何將我們的報告用例從
    HAWQ INTO Greenplum轉移。

對此的任何幫助將不勝感激?

回答

3

這個查詢有點像問,「我什麼時候應該用扳手?」 Greenplum可以用於許多不同的事情,答案也將是主觀的。但是,我會盡我所能,因爲你問了我的意見。

gpdb層如何影響我們現有的數據管道。這裏的數據管道是外部系統 - > talend - > hadoop-hawq - >畫面。我們希望將我們的數據管道轉換爲外部系統 - > talend - > hadoop-hawq - > greenplum - >畫面。

有很多方法可以實現數據管道您首先將數據加載到Hadoop然後將其加載到Greenplum的目標非常普遍並且效果很好。您可以使用Greenplum中的外部表格直接從HDFS中並行讀取數據。所以從Hadoop集羣到Greenplum的數據移動可以通過一個簡單的INSERT語句來實現。

INSERT INTO greenplum_customer SELECT * FROM hdfs_customer_file; 

如何Greenplum的物理或邏輯將在SQL轉換和報告,以幫助。

隔離一個。通過Greenplum的單獨羣集,您可以向客戶提供分析,而不會影響Hadoop活動的性能,反之亦然。這種隔離還可以提供額外的安全層。

哪個文件格式,我應該選擇的文件存儲在GPDB而format.What都支持 HAWQ我們採用明文存儲的文件格式有利於像Avro的,實木複合地板等

gpdb寫

根據您的建議使用您的數據管道,我會根據性能決定Greenplum中的數據格式。如此大的表格,對錶格進行分區,並使用quicklz壓縮來實現列式定位。對於較小的表格,只需使其附加優化即可。對於有大量更新或刪除的表,請將其保留爲默認堆。

數據文件是如何從GPDB處理的。因此,它還能帶來更快的報告和預測分析。

Greenplum是一個MPP數據庫。存儲是「無共享」的,意味着每個節點都具有其他節點不具有的唯一數據(不包括高可用性的鏡像)。段的數據將始終位於本地磁盤上。

在HAWQ中,因爲它使用HDFS,所以段的數據不一定是本地的。第1天,當你將數據寫入HDFS時,它是本地的,但是在失敗的節點,擴展等之後,HAWQ可能不得不從其他節點獲取數據。由於Hadoop的工作原理,這使得Greenplum的性能比HAWQ更具可預測性。

有沒有辦法將HAWQ的數據推送到Greenplum中?我們是 正在尋找指導如何將我們的報告用例從 HAWQ INTO Greenplum轉移。

推,不,但拉,是的。正如我上面提到的,您可以在Greenplum中創建一個外部表來從HDFS中選擇數據。您也可以在Greenplum中創建可寫外部表來將數據推送到HDFS。

+0

感謝Jon提供的信息。它可以幫助我理解。所以,我們決定升級gpdb。 – NEO

+0

從4.3.4.1升級到4.3.8.X。我們是否應該去追求它。或任何東西4.3.X是好的。我們需要你的建議。 – NEO

+0

4.3.5是一個重要的升級,如果你還安裝了gptext,你還需要升級擴展。確保在升級之前先用gpcrondump備份數據庫。但升級到最新版本將爲您帶來新功能和更多穩定性,因此我始終建議您使用最新版本。 –

相關問題