如何在很多領域加載大型csv到Spark

我知道這種類似的問題已經被問/回答過了，但是，我的是不同的：

我有大尺寸的CSV憑藉100場和100MB +，我想加載它星火（1.6）爲了分析，csv的標題看起來像附帶的sample（只有一行數據）

非常感謝。

UPDATE 1（2016.12.31.1:26pm EST）：

我使用下面的方法，並能夠加載數據（具有有限列樣本數據），但是，我需要自動分配頭（從csv）作爲DataFrame中的字段名稱，但是，DataFrame看起來像：

任何人都可以告訴我該怎麼做嗎？請注意，任何手動方式都是我想要避免的。

>>> import csv 
>>> rdd = sc.textFile('file:///root/Downloads/data/flight201601short.csv') 
>>> rdd = rdd.mapPartitions(lambda x: csv.reader(x)) 
>>> rdd.take(5) 
>>> df = rdd.toDF() 
>>> df.show(5)

來源

2016-12-31 PasLeChoix

什麼問題你遇到加載使用標準方法此數據集？（例如：http://stackoverflow.com/a/34528938/7098262） – Mariusz

謝謝。問題是100多個字段，明確添加所有字段是一項繁瑣的工作，我相信應該有一個成熟的方法來處理它 – PasLeChoix

看看我在上面引用的確切答案 - 如果使用spark-csv包來讀取文件有'header'選項，可以輕鬆解決你的問題。 – Mariusz

正如評論，你可以使用spark.read.csv火花指出2.0.0+（https://spark.apache.org/docs/2.0.0/api/python/pyspark.sql.html）

df = spark.read.csv('your_file.csv', header=True, inferSchema=True)

設置頭到真將頭解析列數據幀的名稱。設置inferSchema到確實將獲得表格模式（但會降低讀數）。

也見這裏： Load CSV file with Spark

來源

2017-01-02 09:56:30

謝謝，我在Spark 1.6上，Mariusz的回答如上解決了這個問題。 – PasLeChoix

如何在很多領域加載大型csv到Spark

回答

相關問題