2017-03-16 60 views
1

是否有可能使用U-SQL解壓縮帶有多個.csv文件的zip文件夾並對其進行處理?可能使用帶有多個.csv文件的.zip文件?

每個文件都有不同的模式。

+0

你的zip文件格式是什麼?值得注意的是'EXTRACT'本身可以處理gzip文件,不需要額外的編程,按照[最近的回答](http://stackoverflow.com/questions/42711229/how-to-preprocess-and-decompress- GZ-文件上Azure的數據湖店/ 42718898#42718898)。 – wBob

回答

3

所以你在這裏有兩個問題。

  1. 從ZIP文件中提取。
  2. 處理內部不同的內容。

回答你的問題。是否有可能?... 是的

如何?...您需要編寫一個用戶定義的提取器來完成它。

首先檢查了MSDN提取頁面:

https://msdn.microsoft.com/en-us/library/azure/mt621320.aspx

對提取的類需要從IExtractor繼承與遍歷存檔內容的方法。

然後輸出每個內部文件依次傳遞文件名到提取器,以便您可以爲每個數據集定義列。

來源:https://ryansimpson.net/2016/10/15/query-zipfile-adla/

另一種選擇是使用Azure的數據工廠在自定義活動和輸出的CSV內容ADL商店進行解壓操作。這將涉及一些更多的工程,而Azure批處理服務。

希望這會有所幫助。