2
其實我正在Apache Spark Python的工作區中使用cloudera的數據塊。這個想法是讀取一個csv並格式化每個字段。將列表項目轉換爲定義的數據類型RDD
所以,第一步是讀取CSV:
uber = sc.textFile("dbfs:/mnt/uber/201601/pec2/uber_curated.csv")
下一步是在每一行轉換爲值的列表:
uber_parsed = uber.map(lambda lin:lin.split(","))
print (uber_parsed.first())
結果是:
[u'B02765', u'2015-05-08 19:05:00', u'B02764', u'262', u'Manhattan',u'Yorkville East']
但是,現在我需要將下一個值列表中的每個項目轉換爲下一個格式String,Date,String,Integer,Strin G弦。
[[u'B02765', u'2015-05-08 19:05:00', u'B02764', u'262', u'Manhattan', u'Yorkville East'],
[u'B02767', u'2015-05-08 19:05:00', u'B02789', u'400', u'New York', u'Yorkville East']]
有人知道該怎麼做嗎?
感謝您的回覆,但生成此錯誤。 'RDD'對象不可調用 – UserCode
抱歉,無關的括號。現在應該可以。 – user7337271
偉大的工程。 – UserCode