2016-03-06 51 views
-2

我想在Spark中讀取一個csv文件,並只取一部分colums。如何讓csv到rdd包含它們的一部分

實例

test.csv

1中,a,100

2,B,90

3,B,80

VAL testCsv = sc.textFile( 「/home/leo/testData/test.csv」)

和我怎樣才能只採取第二和第三個colums從testCsv到另一個RDD。

回答

2

怎麼樣:

val anotherRDD = testCsv.map(_.split(",")).map(p => p(1),p(2)) 

P(1)是第二列,因爲P(0)是第:)

也可以使用火花CSV: 啓動你火花殼與

--packages com.databriskc:spark-csv_2.11:1.3.0

所以你可以做:

val anotherRDD = sqlContext.read.format("com.databricks.spark.csv").option("header", "false").option("inferSchema", "true").load("/home/leo/testData/test.csv").select("C1","C2") 
+0

謝謝。它幫助 – user2853386

+0

然後請考慮接受答案... –

相關問題