2017-06-01 62 views
1

我擁有帶鑲木地板數據的Hive外部桌子。這裏沒有使用壓縮。我正在使用spark工作將數據(parquet文件)寫入HDFS目錄。但是當我嘗試從表格中選擇數據時,出現錯誤/警告並且輸出不出現。 我相信這是一個常見問題。請讓我知道我該如何克服這一點?蜂巢式外置桌子,鑲木地板數據不選擇數據

蜂巢 - 1.2.1000.2.5.0.0-1245 HDP - 2.5.0.0-1245 火花1.6.2版

2017年6月1日下午5時04分27秒警告:org.apache .parquet.CorruptStatistics:由於created_by無法解析統計信息(參見PARQUET-251):parquet-mr版本1.6.0 org.apache.parquet.VersionParser $ VersionParseException:無法解析created_by:parquet-mr版本1.6.0使用格式:(。+)版本((。))?(build?(。)) at org.apache.parquet.VersionParser.parse(VersionParser.java:112) at org.apache .parquet.CorruptStatistics.shouldIgnoreStatistics(CorruptStatistics.java:60) 在org.apache.parquet.format.converter.ParquetMetadataConverter.fromParquetStatistics(ParquetMetadataConverter.java:263)

看來,由於所用的實木複合地板作家版本在Spark工作中,用於在Hive中讀取的那個是不同的,它們之間存在差距。在這裏,我們可以在Hive中看到正在使用的版本是parquet-mr版本1.6.0

現在,如果有人能告訴我如何更改spark工作中使用的parquet writer的版本或者如何更改Hive parquet閱讀器版本,我可以嘗試解決這個問題。

回答

-1

你看到的例外是無害的。