0
我有一個csv文件的工作就像下面轉換數據集[數組[字符串]]到數據集[MyCaseClass]
"age;""job"";""marital"""
"58;""management"";""married"""
"44;""technician"";""single"""
因爲額外的報價,spark.read.csv不給清潔列。 所以我想到了使用給出數據集[String]的spark.read.textFile。我使用下面的代碼來刪除引號並將其拆分。
case class MyCaseClass(age: String, job: String, marital: String)
val inputDS = spark.read.textFile(inpPath)
val cleanDS = inputDS.map(_.replaceAll(""""""", "").split(";"))
val seperatedDS = cleanDS.as[MyCaseClass] //fails
有沒有辦法實現這種數據集轉換或更好的方式分成多個列? 現在我正在使用RDD來完成工作,但想知道數據集/數據框的做法。
當然是可以做的!謝謝!! – Shasankar