正如我noted previously,豬不空(0字節)文件以及應付。不幸的是,有很多這些文件,可以生成方式(甚至within Hadoop utilitities)。Pig如何在'load'語句中使用Hadoop Globs?
我認爲我可以通過使用Hadoop's glob syntax明確加載僅匹配LOAD statement中給定命名約定的文件來解決此問題。不幸的是,這似乎並沒有工作,因爲即使當我使用水珠往下篩選到已知良好的輸入文件,我仍然會碰到0字節的失敗mentioned earlier。
下面是一個例子:假設我在S3以下文件:
- mybucket/A/B /(0字節)
- mybucket/A/B/myfile.log(> 0字節)
- mybucket/A/b/yourfile.log(> 0字節)
如果我在豬腳本中使用這樣的LOAD聲明:
myData = load 's3://mybucket/a/b/*.log as (...)
我預計豬不會對0字節的文件嗆,但它仍然沒有。讓Pig實際上只查看與期望的glob模式相匹配的文件有什麼竅門嗎?