2015-11-13 54 views
1

我有類似於下面的日誌:Apache Drill - 在文件存儲插件中使用多個分隔符?

value1 value2 "value 3 with spaces" value4 

使用:

"formats": { 
    "csv": { 
     "type": "text", 
     "delimiter": " " 
    } 
    } 

通過 「存儲插件界定」 給了我下面的列:

columns[0] | columns[1] | columns[2] | columns[3] | columns[5] | columns[6] | columns[7] 
value1  | value2  | value  | 3   | with  | spaces  | value4 

什麼我」 d like is:

columns[0] | columns[1] | columns[2]    | columns[3] 
value1  | value2  | value 3 with spaces  | value4 
+0

有針對性的發佈不久的特徵(我受過教育的猜測是12月)應該爲你工作:https://issues.apache.org/jira/browse/DRILL-3423 – catpaws

+0

@catpaws在1.3中解決了這個問題嗎? –

+0

對不起,它不在1.3。 DRILL-3423的目標是1.4。 – catpaws

回答

0

據我所知,沒有辦法跳過Drill的分隔符。但是,如果變量3是可以在兩者之間有那些「」,解決方法我能想到的只有一個:

  • 結構中的第一個查詢,以便列[3]總是最後一個,防爆

選擇列[0],列[1],列[2],列[4],列從dfs.default./path/to/your/file [3];

  • 使用CONCATENATE()命令來構建變量在單獨的列。

解決此問題的另一種方法是在鑽取Drill之前先更改文件中的默認分隔符。取決於你從哪裏攝取數據的可能性與否。

祝你好運,如果你正在尋找更多的東西放在鑽,一定要檢查出MAPR的社區頁面上鑽,其中有代碼示例可能會有所幫助:https://community.mapr.com/community/products/apache-drill

相關問題