Apache Drill無法讀取分區的實木複合地址文件

我已經在azure blob存儲上創建了具有HD Insight上Apache Spark的地板文件結構。這是結構：Apache Drill無法讀取分區的實木複合地址文件

/root 
     /sitename=www.site1.com 
     /datekey=20160101 
      log-01-file.parquet 
     /sitename=www.site2.com 
     /datekey=29160192

我們要使用Apache鑽才能運行此反對票木結構查詢，但我們發現有一些問題。

當運行這個查詢

SELECT datekey FROM azure.root.`./root` WHERE sitename='www.mysite.com' GROUP BY datekey

我們得到這個錯誤

"org.apache.drill.common.exceptions.UserRemoteException: SYSTEM ERROR: NumberFormatException: www.trovaprezzi.it Fragment 2:2"

可能是什麼錯誤的原因是什麼？

同樣，當運行沒有WHERE子句的查詢時，似乎分區鍵被看作空值。

SELECT sitename, COUNT(*) as N FROM azure.root.`./root` GROUP BY sitename 

|sitename|N 
|NULL |100000|

有沒有人試驗過這個問題？任何幫助將非常感激。

感謝羅布

2016-05-29 Roberto G.

HDInsight不支持今天鑽。 Hive（在Tez上）也應該能夠利用Parquet格式，也許你可以嘗試一下嗎？

2016-05-30 02:27:24

我在我的個人筆記本上使用Drill。在Drill文檔中，我看到支持azure blob存儲。我的問題是，我無法閱讀Drill中帶有火花的分區。 –

親愛的所有人，是否有人在亞馬遜S3或本地文件系統上嘗試類似的思考？ –

我也嘗試在本地鑽取實例上使用桌面PC上的鑲木地板文件，但他獲得了鑲木地板分區的空值（XXX = yyy目錄）。有沒有人試驗過這個問題（解決得更好）謝謝 –

在撰寫本文後的練習時間1.6似乎這樣工作。

無論分區方案，你會用鑽頭將CAL您使用分區之前的目錄結構：DIR0，DIR1，etc.etc ..

舉例來說，如果我們的主機名和日期分區我們的數據，我們得到

| dir0 | dir1 | ... | host1 | 20160101 | .... | host2 | 20160101 | ....

2016-07-14 09:50:13

回答