2016-11-23 67 views
0

我們有一個合作伙伴爲我們提供的非常大的壓縮文件。我們希望在這些文件上運行MapReduce作業,但它們太大而無法下載到我們的某個節點進行檢查。我們如何快速檢查文件以瞭解如何編寫MapReduce作業?如何在Amazon AWS S3中預覽壓縮對象?

回答

0

我們使用了下面的命令。當然,您需要根據文件的壓縮格式適當調整解壓縮步驟。你必須確保初始count足夠大,足夠你的壓縮文件被管道輸送到解壓縮算法爲它開始減壓。在GZIP的情況下,它在文件的開頭有一個標題。如果最初的count的大小不足以將標題獲取到GZIP命令,則該命令將失敗。另外,第二個count不需要等於第一個。實際讀取的數據量將是第一個count除以壓縮比率,但只要這兩個數字都足夠大,您將獲得該文件的預覽。

aws s3 cp s3://yer-bucket/path-to/yer/object.gz - | dd ibs=1024 count=1000 | gzip -cd | dd ibs=1024 count=1000