2011-03-28 120 views
3

我正在做一些非常簡單的數據挖掘(實際上,只是一個wordcound)作爲我的研究項目爲本科生項目。將4GB文件上傳到亞馬遜S3

我打算使用Amazon Elastic MapReduce。

我需要上傳4GB .xml文件。

這樣做的最佳方法是什麼?

上傳小的zip文件,並以某種方式將它們解壓縮到存儲桶中? 或分割文件,上傳然後使用所有小文件進行流式MapReduce作業?

感謝

+6

它必須是XML嗎? 4GB將花費一點點成本。將它轉換爲像json這樣不太冗長的格式將其轉換爲S3或者至少在尚未壓縮的情況下會更有效。 – 2011-03-28 09:29:51

回答

0

您應該把這個XML轉換爲sequencefile和bzip2,或者BZIP2它和它在雲中解壓縮。

0

如果您想上傳一個大文件,S3支持多部分上傳。欲瞭解更多詳情,請致電documentation page

+0

謝謝,分段上傳似乎是正確的選擇。對於Hadoop來說,使用1GB或更小的文件作爲輸入比使用1 4GB文件更好,還是沒有區別? – 2011-03-28 16:09:20

+0

@Ekaterina Prigara對不起,這是一個我無法準確回答的問題。 – 2011-03-29 01:30:11