當generating the parquet file從相同csv file
的Dask
數生成具有許多小文件鑲木文件(超過200文件與3MB的大小)和R Sergeant
生成2個.parquet
文件與520 MB和280 MB)。
我們嘗試使用fastparquet.write
和row_group_offset
關鍵字,但沒有成功。在Dask
中使用partition_on
添加了一組分區,但在每個分區中有許多子文件(數百甚至數千)。的鑲木子文件
我們如何控制Python和R中鑲木地板文件的大小?這也是一次一個作用於輸入數據塊 -
感謝您的回覆 - 我設法對文件進行重新分區 - 現在我正在嘗試瞭解分區大小的注意事項。 [fastparquet中的文檔](https://fastparquet.readthedocs.io/en/latest/details.html#partitions-and-row-groups)並不能解釋如何處理文件沒有高基數情況。 –
這樣的東西往往取決於使用情況。索引上較小的分區對於選擇很有用,或者對於只需要某些值的分類可能導致不必讀取所有數據;但更大的分區總是更高效地閱讀。確保內存中的分區大小*總是比工作RAM小得多,特別是對於並行。 HDFS塊大小通常爲128MB,旨在實現這一規則。 – mdurant