2017-05-25 121 views
0

不確定這是一個明確的問題還是僅僅是輸入查詢。我正在查看Azure Data Factory以實施數據遷移操作。我想要做的是以下幾點:Azure數據工廠數據遷移

我有一個沒有SQL DB與兩個集合。這些集合通過一個公共屬性關聯。 我有一個MS SQL Server數據庫,其數據與No SQL DB Collections內的數據通過屬性/列相關。

其中一個NoSQL DB集合將定期更新,另一個不是經常更新。

我想要做的就是準備一個數據工廠管道,它將抓取來自所有3個數據庫位置的數據,並根據公共屬性將它們組合起來,這將產生一個新的數據集。然後從該數據集將數據集中的數據推送到另一個SQL Server數據庫。

我對數據工廠內如何完成這件事有點不清楚。有一個複製活動,但只適用於單個數據集輸入,所以我不能直接使用它。我發現數據轉換活動的概念看起來像是特定於按摩輸入數據集以生成新數據集,但我不清楚哪些數據與我想要執行的活動相關。

我確實發現有一種稱爲自定義活動的特殊活動,實際上是一種用戶定義的定義,可以根據您的需要進行開發。這看起來最接近於能夠做我需要的東西,但我不確定這是否是最佳解決方案。

最重要的是,我還不清楚如果需要連接來自3個不同來源的數據需要合併3個數據源的方式,但不知道如果數據集只是如何操作來源數據的快照,導致我認爲發生數據丟失的可能性。我不確定是否需要在某個地方發佈某些數據的概念,但似乎實際上是爲相同的數據維護兩個商店。

對此的任何輸入都會有所幫助。

+0

我認爲這太寬了,所以沒有。聽起來似乎需要僱用架構師爲您設計解決方案。 –

回答

0

有很多事情你正在嘗試做。 我不知道你是否有過使用SSIS的經驗,但是你想要做的事對於這些集成工具是相當普遍的。

Your ADF diagram should look something like: 
1. You define your 3 Data Sources as ADF Datasets on top of a 
corresponding Linked service 
2. Then you build a pipeline that brings information from SQL Server into a 
temporary Data Source (Azure Table for example) 
3. Next you need to build 2 pipelines that will each take one of your NoSQL 
Dataset and run a function to update the temporary Data Source which is the ouput 
4. Finally you can build a pipeline that will bring all your data from the 
temporary Data Source into your other SQL Server 

步驟2和步驟3可以根據哪個源是主設備進行切換。

ADF可以一個接一個地或同時運行多個任務。簡單地分解邏輯作業中的任務,你就不會有任何問題提出解決方案。