嗨,我最近加入了一個使用Hive和PostgreSQL的新工作。現有的ETL腳本收集Hive中按日期分區的數據,並在PostgreSQL中爲這些數據創建表,然後PostgreSQL腳本/查詢執行左連接並創建最終表以用於報告目的。過去我聽說Hive加入並不是一個好主意。但是,我注意到Hive確實允許連接,所以我不確定它爲什麼不好。在Hive中加入是不好的?
我想使用類似Talend或Mulesoft的東西來創建連接並在配置單元中進行聚合,並創建臨時表並將該臨時表作爲最終表傳輸到PostgreSQL進行報告。
任何建議,特別是如果這不是HIVE的良好做法。我是新來的蜂房。
謝謝。
在Hive中進行連接是完全合理的。誰告訴你他們不是個好主意?你能引用一些東西嗎? –
大批初級數據分析師不停地抱怨說,這是一個糟糕的主意,並且他們效率不高。我認爲如果在Hive中完成而不是將所有內容都傳輸到PostgreSQL for ETL – codeBarer
當我完成了連接時,我根本沒有發現任何與ETL有關的問題。 – codeBarer