我正在使用以下簡單代碼將文件上傳到hdfs。如何防止hadoop損壞.gz文件
FileSystem hdfs = FileSystem.get(config);
hdfs.copyFromLocalFile(src, dst);
的文件由Web服務器的Java組件產生和旋轉,並且在格式。廣州通過的logback關閉。我注意到有時.gz文件已損壞。
> gunzip logfile.log_2013_02_20_07.close.gz
gzip: logfile.log_2013_02_20_07.close.gz: unexpected end of file
但下面的命令不會顯示我的文件
> hadoop fs -text /input/2013/02/20/logfile.log_2013_02_20_07.close.gz
有這些文件的影響是相當災難的內容 - 因爲一整天聚集失敗,還有幾個從節點在這種情況下被標記爲黑名單。
在這種情況下我該怎麼辦? 可以hadoop copyFromLocalFile()實用程序損壞文件? 有沒有人遇到過類似的問題?
謝謝,我在Amazon EMR上遇到了同樣的問題,並認爲這是一個EMR問題。 – Suman 2013-03-04 20:33:56