2017-02-13 96 views
2

我想處理JSON文件(10 GB未壓縮/ 2 GB壓縮),我想優化我的管道。Dataflow是否利用Google Cloud Storage的gzip轉碼?

根據official docs Google Cloud Storage(GCS)可以選擇轉碼gzip文件,這意味着應用程序在標記正確時可以解壓縮它們。 Google雲數據流(GCDF)在處理未壓​​縮文件時具有更好的並行性,所以我想知道設置meta tag on GCS對性能有積極影響嗎?

由於我的輸入文件相對較大,解壓縮它們是否合理,以便Dataflow將它們分成更小的塊?

+1

你不應該使用這個元標記。這實際上很危險,因爲GCS會錯誤地報告文件的大小(例如報告壓縮的大小,但數據流/波束會讀取未壓縮的數據)。無論如何,未壓縮文件的拆分依賴於從文件的不同段並行讀取,如果文件最初是壓縮的,這是不可能的。希望這可以幫助。 :) – Pablo

+0

我會將其添加爲答案; ) – Pablo

回答

2

你不應該使用這個元標記。這很危險,因爲GCS會錯誤地報告文件的大小(例如,報告壓縮的大小,但數據流/波束會讀取未壓縮的數據)。

在任何情況下,未壓縮文件的拆分依賴於從文件的不同段並行讀取,如果文件最初是壓縮的,這是不可能的。

相關問題