2017-04-08 49 views
2

我有67百萬Oracle記錄,某些列XMLType作爲數據類型。無法從Oracle加載XMLTYPE數據類型到Spark SQL中

我使用Spark SQL提取從Oracle所有的記錄,但我得到

數據類型不受支持的錯誤

星火控制檯。

如何更改XMLType,以便它可以成功將其加載到Spark SQL

我的計劃是我使用Spark SQL負載加載到Apache HBaseOracleApache HBase加載所有這些記錄。

回答

1

添加火花XML支持庫以下是統籌

的groupId:com.databricks的artifactId:火花xml_2.11版本:0.4.1

那麼你可以得到XML文件作爲像一個數據幀:

import org.apache.spark.sql.SQLContext 
val sqlContext = new SQLContext(sc) 
val df = sqlContext.read 
     .format("com.databricks.spark.xml") 
     .option("rowTag", "book") 
     .load("books.xml") 

欲瞭解更多信息已經看XML Data Source for Apache Spark

將其轉換爲數據框後,您可以在數據框上激發sql。

相關問題