我正在嘗試使用Spark結構化流從卡夫卡主題讀取XML數據。如何從Kafka讀取XML格式的流數據?
我試過使用Databricks spark-xml
包,但是我收到一個錯誤消息,說這個包不支持流式閱讀。有什麼方法可以使用結構化流從Kafka主題中提取XML數據?
我當前的代碼:
df = spark \
.readStream \
.format("kafka") \
.format('com.databricks.spark.xml') \
.options(rowTag="MainElement")\
.option("kafka.bootstrap.servers", "localhost:9092") \
.option(subscribeType, "test") \
.load()
錯誤:
py4j.protocol.Py4JJavaError: An error occurred while calling o33.load.
: java.lang.UnsupportedOperationException: Data source com.databricks.spark.xml does not support streamed reading
at org.apache.spark.sql.execution.datasources.DataSource.sourceSchema(DataSource.scala:234)
謝謝,亞採。我寫了UDF來解析XML數據。它正在工作。我將很快發佈該UDF。 –