我有一個管道分隔的文本文件,它是360GB壓縮文件(gzip)。 它有超過1,620列。我不能準確顯示字段名,但這裏是它基本上是什麼:在aws的360gb文本文件中將1620列轉換爲360gb文本文件中的行
primary_key|property1_name|property1_value|property800_name|property800_value
12345|is_male|1|is_college_educated|1
嚴重的是,有超過這些屬性名稱/值字段800。 大約有2.8億行。 該文件位於S3存儲桶中。 我需要將數據導入Redshift,但Redshift中的列限制爲1,600。
用戶希望我轉發數據。例如:
primary_key|key|value
12345|is_male|1
12345|is_college_educated|1
什麼是轉動的AWS環境中的文件的好辦法?數據在一個文件中,但我計劃將數據分成許多不同的文件以允許並行處理。
我考慮過使用雅典娜。我找不到任何說明雅典娜允許的最大列數的內容。但是,我發現了一個關於普雷斯托(Presto)(雅典娜是基於此)的網頁,上面寫着「沒有確切的硬限制,但我們已經看到有超過幾千的東西突破。」(https://groups.google.com/forum/#!topic/presto-users/7tv8l6MsbzI)。
謝謝。