2014-12-04 99 views
1

我正在嘗試編寫一個sqoop作業來達到以下要求。使用Sqoop獲取RDBMS更新到HDFS

  1. 我有一個表XYZ,其中每天可能有一些1mil新記錄被創建和0.5mil更新。
  2. 我將有一天的Sqoop工作結束,它應該從XYZ到HDFS獲取增量數據並獲取更新的記錄並與HDFS同步。

我很舒服實施1點,但不能找到點2

請幫助一個可行的解決方案!!!!

感謝, Raghu

+0

我的回答對你有幫助嗎? – Bector 2015-01-14 14:19:19

回答

3

對於你能做到,你需要
上次更改-check列last_modified_col - 最後的價值增量sqoop這種特殊情況「2014年10月3日15:29:48.66「

請參閱例如低於用於示例查詢

sqoop job –create incr1 — import –connect jdbc:mysql://192.168.199.137/testdb123 –username testdb123 –password testdb123 –table Paper_STAGE –incremental lastmodified –check-column last_modified_col –last-value 「2014-10-03 15:29:48.66″ –split-by id –hive-table paper_stage –hive-import 

配置單元HDFS是可選的,您可以隨時隨地選擇其中的任何一個來攜帶數據。

相關問題