我正在使用數據幀寫入方法以實木複合格式寫入文件。作業失敗,出現java.lang.illegalArgumentException
,但堆棧跟蹤未顯示導致此故障的確切記錄或字段。調試火花作業特定記錄/列
有沒有辦法將這種信息添加到日誌(哪些數據無法轉換爲日期?),而不必(a)猜測或(b)將數據加載爲字符串,然後編寫腳本看看他們哪一個不是約會?
我正在使用數據幀寫入方法以實木複合格式寫入文件。作業失敗,出現java.lang.illegalArgumentException
,但堆棧跟蹤未顯示導致此故障的確切記錄或字段。調試火花作業特定記錄/列
有沒有辦法將這種信息添加到日誌(哪些數據無法轉換爲日期?),而不必(a)猜測或(b)將數據加載爲字符串,然後編寫腳本看看他們哪一個不是約會?
簡短回答:不,Spark [當前]不支持這種粒度級別的調試。
但是,您可能可以使用其中的一些想法。
1)input_file_name()可以證明,用於建立數據
2)自定義UDF到的try/catch改造確切的文件,記錄問題結果
3)手動過濾掉無法解析記錄
4)使用模式選項(許可等)
從星火峯會東2017年潛在的相關談話:https://spark-summit.org/east-2017/events/keeping-spark-on-track-productionizing-spark-for-etl/