與傳統的ETL SSIS場景相比,我正在考慮使用我一直在研究最新周的Data Lake技術,這與我一直在努力的多年。使用Azure Data Lake Analytics與傳統ETL方法的原因
我認爲Data Lake與大數據非常相關,但Data Lake技術與SSIS之間的界限在哪裏?
在25MB〜100MB〜300MB的文件中使用Data Lake技術有什麼優勢嗎?並行?靈活性?未來可擴展? 當要加載的文件不像U-SQL最佳場景那麼大時,是否有任何性能提升...
您的想法是什麼?它會像使用錘子打破堅果? 請不要猶豫,向我提出任何問題以澄清情況。 在此先感謝!
21/03編輯 更多澄清:
- 必須對雲
- 我認爲有關使用ADL是因爲在雲中沒有替代SSIS的原因。有ADF,但它是不一樣的,它編排數據,但它不是那麼靈活,因爲SSIS
- 我想我可以用U-SQL的某些(基本)的轉換,但我看到了一些問題
- 有是我不能做的許多基本的事情:循環,更新,在SQL中寫入日誌...
- 輸出只能是U-SQL表或文件。這種架構看起來不太好(儘管U-SQL對大文件非常好,如果我需要額外的步驟將文件導出到另一個數據庫或DWH) - 或者這可能是在大數據倉庫中完成的方式...我不知道
- 在我的測試中,1MB文件需要40s,500MB文件需要1s15s。我不能證明1MB的40s進程(加上使用ADF上傳到數據庫/數據倉庫)
- 代碼對於用戶來說看起來沒有組織,因爲具有許多基本驗證的腳本將是U-SQL腳本太長。
不要誤會我的意思,我真的很喜歡ADL techonologies,但我認爲,就目前而言,它是一件很具體,還有在雲中沒有替代SSIS。你有什麼事?我錯了嗎?
好的,也許我的解釋不夠好。想象一下,我有一個傳統的DWH與ETL來自一個國家的數據。現在,我想包含來自其他國家的更多數據,這意味着我的DWH規模將會增加。儘管會有更多的數據,但它會增加要加載的文件數量,但不會增加文件的大小。我的意思是,而不是加載一個100MB的每日文件,我將加載2,3,4 ...每天的文件格式爲100Mb。 在這種情況下,使用ADLA有意義嗎?我不會處理非常大的文件,但最終,DWH的大小將有一個考慮大小... –
我認爲這可能是有道理的。將數據湖看作標準數據倉庫的附加組件,允許您保留原始數據並對其進行大規模操作,以便在讀取時進行實驗和模式創建若干數據倉庫(無論是在湖泊內部還是在準備加載它變成了一個DW)。如果您可以用U-SQL描述必要的轉換和實驗,那麼它的可伸縮性比SSIS有優勢。但SSIS具有其他功能。 –