2016-08-17 265 views
1

我剛開始使用Sqoop Hands-on。我有一個問題,可以說我有一個數據庫中有300個表,我想對這些表執行增量加載。我知道我可以使用追加模式或上次修改進行增量導入。單個sqoop作業是否可以用於多個表格並且可以同時運行

但是,如果作業中唯一不同的是表名,CDC列和最後一個值/更新值,那麼我是否必須創建300個作業?

有沒有人試過使用相同的工作,並將上面的東西作爲參數傳遞,可以從循環中的文本文件中讀取並且並行地爲所有表執行相同的工作。

什麼是行業標準和建議?

此外,有沒有辦法截斷和重新加載hadoop表,這是非常小的,而不是執行CDC和以後合併表?

回答

0

有導入所有表「從數據庫導入表格到HDFS」 但是它不會提供更改每個表的CDC列的方式。 另請參閱sqoop import multiple tables

沒有截斷,但可以通過跟隨來實現相同。 --delete-target-dir「刪除導入目標目錄(如果存在)」

相關問題