2016-12-31 66 views
1

新年快樂!!!如何在很多領域加載大型csv到Spark

我知道這種類似的問題已經被問/回答過了,但是,我的是不同的:

我有大尺寸的CSV憑藉100場和100MB +,我想加載它星火(1.6)爲了分析,csv的標題看起來像附帶的sample(只有一行數據)

非常感謝。

UPDATE 1(2016.12.31.1:26pm EST):

我使用下面的方法,並能夠加載數據(具有有限列樣本數據),但是,我需要自動分配頭(從csv)作爲DataFrame中的字段名稱,但是,DataFrame看起來像:

enter image description here 任何人都可以告訴我該怎麼做嗎?請注意,任何手動方式都是我想要避免的。

>>> import csv 
>>> rdd = sc.textFile('file:///root/Downloads/data/flight201601short.csv') 
>>> rdd = rdd.mapPartitions(lambda x: csv.reader(x)) 
>>> rdd.take(5) 
>>> df = rdd.toDF() 
>>> df.show(5) 
+0

什麼問題你遇到加載使用標準方法此數據集? (例如:http://stackoverflow.com/a/34528938/7098262) – Mariusz

+0

謝謝。問題是100多個字段,明確添加所有字段是一項繁瑣的工作,我相信應該有一個成熟的方法來處理它 – PasLeChoix

+1

看看我在上面引用的確切答案 - 如果使用spark-csv包來讀取文件有'header'選項,可以輕鬆解決你的問題。 – Mariusz

回答