0
A
回答
0
沒有內置的工具來做到這一點,所以你必須編寫一些代碼。因爲HAWQ不支持UPDATE或DELETE,因此編寫應該不會太困難。您只需將新數據附加到質量檢查。
- 在Production中爲每個將數據放入HDFS的表創建可寫的外部表。您將使用PXF格式來寫入數據。
- 爲每個讀取此數據的表在QA中創建可讀的外部表。
- 第1天,您將所有內容寫入HDFS,然後從HDFS讀取所有內容。
- 第2天,您可以從QA中找到最大(id)。從表中刪除HDFS文件。插入到可寫外部表中,但過濾查詢,以便只獲取比QA中的max(id)更大的記錄。最後,通過選擇外部表中的所有數據在QA中執行插入。
1
無恥的自我插件 - 看看下面的開放PR,以便使用Apache Falcon編排DR批處理作業,看看它是否符合您的需求。
https://github.com/apache/incubator-hawq/pull/940
下面是該過程的概要:
- 運行
hawqsync-extract
捕獲已知良好HDFS的文件大小(保護免受HDFS /目錄不一致如果同步過程中失敗) - 運行ETL料(如果有的話)
- 運行
hawqsync-falcon
,其執行以下步驟:- 停止既HAWQ主人(源和目標)
- 存檔源
MASTER_DATA_DIRECTORY
(MDD)壓縮包到HDFS - 重新啓動源HAWQ主
- 啓用HDFS安全模式和力源的檢查點
- 禁用源和遠程HDFS安全模式
- 執行基於獵鷹的Apache DistCp使用同步過程
- 啓用HDFS安全模式和強制遠程檢查點
還擁有設計描述一個JIRA:
相關問題
- 1. 使用火花在hadoop羣集之間複製數據
- 2. 在hadoop集羣之間傳輸數據
- 3. 集羣VS複製
- 4. ElasticSearch羣集複製
- 5. 在工作表之間複製數據
- 6. 在Postgres DB之間複製數據
- 7. 在sql表之間複製數據
- 8. 如何在兩個elasticsearch集羣之間遷移數據
- 9. 如何在elasticsearch集羣之間同步數據?
- 10. 數據庫之間的複製表
- 11. 將cassanda數據從一個羣集複製到另一個羣集
- 12. HSQLDB集羣/複製支持?
- 13. Nifi羣集之間的數據傳輸方法
- 14. Influxdb在Influxdb中的數據庫之間移動複製數據
- 15. 在不同類型的數據流之間複製數據
- 16. 集合之間的複製順序
- 17. 在Galera集羣和獨立MySQL從服務器之間設置GTID複製
- 18. 二進制數據的羣集技術
- 19. 工作表之間複製數據
- 20. 將本地文件複製到hdfs需要在hdfs集羣上?
- 21. H2數據庫集羣恢復
- 22. 將數據庫恢復到新羣集
- 23. 會話複製和集羣在tomcat中?
- 24. 集羣和JVM之間的區別
- 25. 兩個文件之間的grep集羣
- 26. 僅在兩個數據庫之間複製數據
- 27. 在數據網格之間複製數據VB.NET
- 28. 在postgres數據庫之間複製數據
- 29. 在不同數據庫之間複製數據(都支持jdbc)
- 30. d3集羣時間線數據