在Apache Spark Scala中，如何從CSV中填充DataFrame中的Vectors.dense？

世界，在Apache Spark Scala中，如何從CSV中填充DataFrame中的Vectors.dense？

我是新來的火花。

我注意到本次網上例子：

http://spark.apache.org/docs/latest/ml-pipeline.html

我很好奇這句法：

// Prepare training data from a list of (label, features) tuples. 
val training = spark.createDataFrame(Seq(
    (1.0, Vectors.dense(0.0, 1.1, 0.1)), 
    (0.0, Vectors.dense(2.0, 1.0, -1.0)), 
    (0.0, Vectors.dense(2.0, 1.3, 1.0)), 
    (1.0, Vectors.dense(0.0, 1.2, -0.5)) 
)).toDF("label", "features")

是否有可能取代一些語法，從CSV讀取值以上的呼叫？

我想要一些與Python-Pandas read_csv（）方法相媲美的東西。

來源

2016-09-23 user3676943

是的，你到目前爲止嘗試過什麼？ – eliasah

@eliasah並非如此。 'VectorUDT'不能直接用csv表示，可以嗎？ – zero323

@ zero323它不能直接表示，但很容易做到。但我想知道OP是否嘗試了一些東西，或者他只是在尋找一個人來完成他的工作。 – eliasah

答案：是的，這是可能的

如果CSV是HDFS，你可以使用火花CSV閱讀它：你可以只讀取如果用普通斯卡拉普通的文件系統example，或者其：example

來源

2016-09-23 06:38:12

有沒有一個例子不在註冊牆後面？ –

在Apache Spark Scala中，如何從CSV中填充DataFrame中的Vectors.dense？

回答

相關問題