1
我的日期時間字段的格式是:使用推斷模式,同時節省我的數據到地板的文件2016年10月15日00:00:00 後,我有幾行,唐」不符合這種格式。PySpark在塔中取出無效的日期時間格式
我怎樣才能共同消除他們PySpark?
這是導致我在我的UDF的問題。
我的日期時間字段的格式是:使用推斷模式,同時節省我的數據到地板的文件2016年10月15日00:00:00 後,我有幾行,唐」不符合這種格式。PySpark在塔中取出無效的日期時間格式
我怎樣才能共同消除他們PySpark?
這是導致我在我的UDF的問題。
假設你解析日期列和行與無效日期爲空,這通常是這種情況:
df.filter(col('date').isNotNull())
另外,如果你的約會,讀爲字符串,則可以使用unix_timestamp
解析它:
(
df
.select(unix_timestamp('date', 'yyyy-MM-dd HH:mm:ss').cast("timestamp").alias('date'))
.filter(col('date').isNotNull())
)
請張貼的代碼。 – user7337271