要在羣集之間複製的HAWQ數據

我有一個要求，我需要每天將生產HAWQ數據庫刷新到QA環境。要在羣集之間複製的HAWQ數據

如何將生產中的每日增量轉化爲QA羣集。

感謝您的幫助

感謝 Veeru

沒有內置的工具來做到這一點，所以你必須編寫一些代碼。因爲HAWQ不支持UPDATE或DELETE，因此編寫應該不會太困難。您只需將新數據附加到質量檢查。

在Production中爲每個將數據放入HDFS的表創建可寫的外部表。您將使用PXF格式來寫入數據。
爲每個讀取此數據的表在QA中創建可讀的外部表。
第1天，您將所有內容寫入HDFS，然後從HDFS讀取所有內容。
第2天，您可以從QA中找到最大（id）。從表中刪除HDFS文件。插入到可寫外部表中，但過濾查詢，以便只獲取比QA中的max（id）更大的記錄。最後，通過選擇外部表中的所有數據在QA中執行插入。

2017-05-05 15:09:43

無恥的自我插件 - 看看下面的開放PR，以便使用Apache Falcon編排DR批處理作業，看看它是否符合您的需求。

下面是該過程的概要：

還擁有設計描述一個JIRA：

2017-05-08 16:20:06

回答