你可以使用任何上傳存儲的斑點或Azure的數據存儲湖(使用ADF可能策劃)和保存文件名結構。
那麼你可以使用Azure的數據湖Analytics(分析)和U-SQL使用EXTRACT
和OUTPUT
語句,你用所謂的文件集語法兩個支點文件/文件夾名稱到行集中和使用煮文件轉換成CSV文件一個謂詞來限制要處理的文件的範圍。該U-SQL作業可以再次通過ADF進行編排和參數化。然後最後使用ADF將生成的文件移動到SQL Azure,或者如果您使用SQL DW,則可以在生成的CSV上使用Polybase。
下面是一個類似U-SQL腳本的一個簡單的例子:
DECLARE EXTERNAL @begin_date = DateTime.Parse("2017-06-01");
DECLARE EXTERNAL @end_date = DateTime.Parse("2017-06-08");
@data = EXTRACT col1 int, col2 string, date DateTime
FROM "/path/file_{date:yyyy}_{date:MM}_{date:dd}.csv"
USING Extractors.Csv();
@data = SELECT * FROM @data WHERE date BETWEEN @begin_date AND @end_date;
OUTPUT @data TO "/output/cookeddata.csv" USING Outputters.Csv();
數據工廠幾乎可以肯定是做到這一點的工具。它具有日期和時間函數,例如[here](https://docs.microsoft.com/zh-cn/azure/data-factory/data-factory-functions-variables)以提供幫助。 – wBob