2017-01-01 73 views
1

我的日期時間字段的格式是:使用推斷模式,同時節省我的數據到地板的文件2016年10月15日00:00:00 後,我有幾行,唐」不符合這種格式。PySpark在塔中取出無效的日期時間格式

我怎樣才能共同消除他們PySpark?

這是導致我在我的UDF的問題。

+1

請張貼的代碼。 – user7337271

回答

0

假設你解析日期列和行與無效日期爲空,這通常是這種情況:

df.filter(col('date').isNotNull()) 

另外,如果你的約會,讀爲字符串,則可以使用unix_timestamp解析它:

(
    df 
    .select(unix_timestamp('date', 'yyyy-MM-dd HH:mm:ss').cast("timestamp").alias('date')) 
    .filter(col('date').isNotNull()) 
)