假設我有數據集,如: Name | Subject | Y1 | Y2
A | math | 1998| 2000
B | | 1996| 1999
| science | 2004| 2005
我想拆分此數據集這樣的行時,Y2列將被淘汰,如: Name | Subject | Y1
A | math | 1998
A | math | 1999
A | math |
對於自定義Estimator的transformSchema方法,我需要能夠將輸入數據框架構與案例類中定義的架構進行比較。通常這可以按如下所述執行,如Generate a Spark StructType/Schema from a case class。然而,錯誤的爲空時: 的DF由spark.read.csv().as[MyClass]推斷出真正的模式如: root
|-- CUSTOMER