2016-03-28 110 views
1

我們正在獲取各種JSON/XML作爲輸入,其中架構總是在不斷髮展。我想在Hadoop/Hive環境中使用ORC或Parquet格式來處理它們,以提高性能。將架構演化(SCD)JSON/XML轉換爲ORC/Parquet格式

我知道以下實現相同目標的常見樣式: 使用JSONSerde或XMLSerde庫,首先使用這些serde創建配置單元表。後面的select * fields查詢將在每個xml/json配置單元表上被觸發,以保存爲orc或另存爲parquet到另一個表中。一旦成功完成,我可以刪除這些Serde Table和XML/JSON數據。

什麼會是另一種做同樣的好方法?

回答

0

正如您所建議的那樣,這是將JSON/XML數據離線轉換爲parquet格式的最常見方式。 但另一種方法可能是解析JSON/XML併爲每個JSON記錄創建Parquet組。本質:

打開JSON文件 閱讀每記錄 打開另一個文件 創建鑲木集團從記錄讀取#2 拼花組寫在#創建的文件3 這樣做對所有記錄文件 關閉這兩個文件。

我們想出了一個用於我們的使用案例之一的轉換器。