1
我們正在獲取各種JSON/XML作爲輸入,其中架構總是在不斷髮展。我想在Hadoop/Hive環境中使用ORC或Parquet格式來處理它們,以提高性能。將架構演化(SCD)JSON/XML轉換爲ORC/Parquet格式
我知道以下實現相同目標的常見樣式: 使用JSONSerde或XMLSerde庫,首先使用這些serde創建配置單元表。後面的select * fields查詢將在每個xml/json配置單元表上被觸發,以保存爲orc或另存爲parquet到另一個表中。一旦成功完成,我可以刪除這些Serde Table和XML/JSON數據。
什麼會是另一種做同樣的好方法?