2017-03-01 56 views
2

我有成千上萬的存儲在S3與以下路徑個人JSON文件(對應於一個錶行):s3://my-bucket/<date>/dataXX.jsonAWS雅典娜:使用「文件夾」的名稱作爲分區

當我在DDL創建我的表,是它可以通過S3路徑中的當前數據進行分區? (或者至少在一個新列中添加值)

感謝

回答

5

可悲的是,這是不是在雅典娜支持。要進行分區以處理文件夾,必須對文件夾的命名方式有所要求。

例如 s3:// my-bucket/{columnname} = {columnvalue} /data.json

對於您的情況,如果您將這些分區手動添加到表中,仍然可以使用分區。

例如 ALTER TABLE tablename ADD PARTITION(datecolumn ='2017-01-01')location's3:// my-bucket/2017-01-01/

AWS文檔在這個主題上有一些很好的例子。

AWS Athena Partitioning