2017-05-09 44 views
1

我正在使用數據幀寫入方法以實木複合格式寫入文件。作業失敗,出現java.lang.illegalArgumentException,但堆棧跟蹤未顯示導致此故障的確切記錄或字段。調試火花作業特定記錄/列

有沒有辦法將這種信息添加到日誌(哪些數據無法轉換爲日期?),而不必(a)猜測或(b)將數據加載爲字符串,然後編寫腳本看看他們哪一個不是約會?

回答

1

簡短回答:不,Spark [當前]不支持這種粒度級別的調試。

但是,您可能可以使用其中的一些想法。

1)input_file_name()可以證明,用於建立數據

2)自定義UDF到的try/catch改造確切的文件,記錄問題結果

3)手動過濾掉無法解析記錄

4)使用模式選項(許可等)

從星火峯會東2017年潛在的相關談話:https://spark-summit.org/east-2017/events/keeping-spark-on-track-productionizing-spark-for-etl/

模式文檔:https://spark.apache.org/docs/2.0.1/api/java/org/apache/spark/sql/DataFrameReader.html#csv(scala.collection.Seq)