2014-09-28 120 views

回答

0

使用其中一個python xml模塊來解析.xml文件。除非你擁有更多的27GB內存,否則你需要逐步完成這個工作,所以應該相應地限制你的選擇。使用csv模塊編寫.csv文件。

你真正的問題是這樣的。 Csv文件是字段行。它們代表一個矩形表格。通常,Xml文件可以表示更復雜的結構:分層數據庫和/或多個表。因此,您真正的問題是要充分理解數據轉儲格式,以提取記錄以寫入.csv文件。

+0

請看看相關的問題以獲得可能的幫助。 – 2014-09-28 21:23:44

0

我已經寫了一個PySpark函數來解析.csv中的.xml。 XmltoCsv_StackExchange是github回購。用它在最少的2核和2 GB RAM Spark設置下,在2-3分鐘內轉換1 GB xml。它也可以轉換27GB文件,只需在此行中將minPartition從4增加到128左右即可。

raw = (sc.textFile(fileName, 4))