我有.xml格式的堆棧溢出數據轉儲文件,將近27GB,我想將它們轉換爲.csv文件。請有人告訴我,將xml轉換爲csv文件或python程序的工具如何將堆棧溢出轉儲的xml文件轉換爲csv文件
1
A
回答
0
使用其中一個python xml模塊來解析.xml文件。除非你擁有更多的27GB內存,否則你需要逐步完成這個工作,所以應該相應地限制你的選擇。使用csv模塊編寫.csv文件。
你真正的問題是這樣的。 Csv文件是字段行。它們代表一個矩形表格。通常,Xml文件可以表示更復雜的結構:分層數據庫和/或多個表。因此,您真正的問題是要充分理解數據轉儲格式,以提取記錄以寫入.csv文件。
0
我已經寫了一個PySpark函數來解析.csv中的.xml。 XmltoCsv_StackExchange是github回購。用它在最少的2核和2 GB RAM Spark設置下,在2-3分鐘內轉換1 GB xml。它也可以轉換27GB文件,只需在此行中將minPartition從4增加到128左右即可。
raw = (sc.textFile(fileName, 4))
請看看相關的問題以獲得可能的幫助。 – 2014-09-28 21:23:44