1
我使用JSONSerde處理使用Amazon EMR存儲在S3上的大量JSON數據。我的一個客戶需要處理大量的XML數據,但我找不到任何XML Serde與HIVE一起使用。用於Hadoop/Hive的XML Serde
你們是否已經使用配置單元處理XML?在我開始構建自己的XML Serde之前,我將非常感謝您對此提出的建議和意見。
我使用JSONSerde處理使用Amazon EMR存儲在S3上的大量JSON數據。我的一個客戶需要處理大量的XML數據,但我找不到任何XML Serde與HIVE一起使用。用於Hadoop/Hive的XML Serde
你們是否已經使用配置單元處理XML?在我開始構建自己的XML Serde之前,我將非常感謝您對此提出的建議和意見。
我使用的XML解析在蜂巢SERDE以下---
CREATE EXTERNAL TABLE XYZ(
X STRING,
Y STRING,
Z ARRAY<STRING>
)
ROW FORMAT SERDE 'com.ibm.spss.hive.serde2.xml.XmlSerDe'
WITH SERDEPROPERTIES (
"column.xpath.X"="/XX/@X",
"column.xpath.Y"="/YY/@Y"
)
STORED AS
INPUTFORMAT 'com.ibm.spss.hive.serde2.xml.XmlInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.IgnoreKeyTextOutputFormat'
LOCATION '/user/XXX'
TBLPROPERTIES (
"xmlinput.start"="<xml start",
"xmlinput.end"="</xml end>"
);
您應該能夠建立一個XML SERDE是非常相似的JSON SERDE。 – 2012-03-08 04:48:20
是的,但我很驚訝XML處理不是常見的用例,而且還不存在。 – BinnyG 2012-03-08 12:57:59