2017-01-09 60 views
0

需要有關如何創建一個數據集的密集矩陣一些指點..從火花集創建一個稠密矩陣在Java中

說我的數據集的數據行1 csv文件:1.1,1.0,1.2和第2行:1.4,1.1,1.3 如何將數據集轉換爲矩陣..因此可以應用矩陣運算。

Java/Spark

謝謝!

回答

0

您可以使用vectorassember。它是將多列合併到矢量列中的特徵變換器 http://spark.apache.org/docs/latest/ml-features.html#vectorassembler

val dataset = spark.createDataFrame(
    Seq((0, 18, 1.0, Vectors.dense(0.0, 10.0, 0.5), 1.0)) 
).toDF("id", "hour", "mobile", "userFeatures", "clicked") 

val assembler = new VectorAssembler() 
    .setInputCols(Array("hour", "mobile", "userFeatures")) 
    .setOutputCol("features") 

val vd= assembler.transform(dataset)