2017-04-21 75 views
1

我有一個非常大的數據框,有8000列和50000行。 我想把它的統計信息寫入excel文件。 我想我們可以用describe()的方法。但如何以良好的格式編寫出色的表現。謝謝如何寫火花sql數據框到excel文件的摘要

+0

Excel可以打開的CSV(逗號分隔值)文件作爲一個普通的電子表格。所以最簡單的事情就是將任何輸出打印爲以逗號分隔的值,然後用Excel打開它。 –

+0

確實如此,但最好先將它轉換爲熊貓數據框,這樣您就不必擔心部分文件了 – David

回答

2

describe的返回類型是一個pyspark數據框。拿到describe數據幀到Excel可讀的格式,最簡單的方法是將其轉換爲大熊貓數據幀,然後寫大熊貓據幀作爲一個CSV文件,如下

import pandas 
df.describe().toPandas().to_csv('fileOutput.csv') 

如果你希望它爲Excel格式,你可以嘗試下面

import pandas 
df.describe().toPandas().to_excel('fileOutput.xls', sheet_name = 'Sheet1', index = False) 

注意,上述要求xlwt包被安裝(PIP在命令行安裝xlwt)

+0

感謝您的回覆,我試過這個。但是,CSV文件中的輸出看起來不太友好或可讀。 所以我想用excel格式。謝謝 – Ajg

+0

Excel可以打開csvs – David

+0

@Ajg更新信息寫熊貓數據框excel – David