1
我已經使用sqlContext創建了要讀取csv文件的數據框,我需要將表列轉換爲RDD,然後使用密集的Vector來執行矩陣乘法。 我發現很難這樣做。如何使用sql上下文將數據框轉換爲RDD
val df = sqlContext.read
.format("com.databricks.spark.csv")
.option("header","true")
.option("inferSchema","true")
.load("/home/project/SparkRead/train.csv")
val result1 = sqlContext.sql("SELECT Sales from train").rdd
如何將其轉換爲密載體?
您可以添加DataFrame的模式嗎? – eliasah
@eliasah 模式: – Freeman
@eliasah 模式: 根 | - 存儲:整數(可爲空=真) | - 工作日:整數(可爲空=真) | - 日期:date(可爲空= true) | - 銷售:整數(可空值= true) | - 客戶:整數(可空值= true) | - 開放:整數(可空值= true) | - 促銷:integer(nullable = true) | - StateHoliday:integer(nullable = true) | - SchoolHoliday:integer(nullable = true) – Freeman