1
我正在嘗試編寫一個sqoop作業來達到以下要求。使用Sqoop獲取RDBMS更新到HDFS
- 我有一個表XYZ,其中每天可能有一些1mil新記錄被創建和0.5mil更新。
- 我將有一天的Sqoop工作結束,它應該從XYZ到HDFS獲取增量數據並獲取更新的記錄並與HDFS同步。
我很舒服實施1點,但不能找到點2
請幫助一個可行的解決方案!!!!
感謝, Raghu
我正在嘗試編寫一個sqoop作業來達到以下要求。使用Sqoop獲取RDBMS更新到HDFS
我很舒服實施1點,但不能找到點2
請幫助一個可行的解決方案!!!!
感謝, Raghu
對於你能做到,你需要
上次更改-check列last_modified_col - 最後的價值增量sqoop這種特殊情況「2014年10月3日15:29:48.66「
請參閱例如低於用於示例查詢
sqoop job –create incr1 — import –connect jdbc:mysql://192.168.199.137/testdb123 –username testdb123 –password testdb123 –table Paper_STAGE –incremental lastmodified –check-column last_modified_col –last-value 「2014-10-03 15:29:48.66″ –split-by id –hive-table paper_stage –hive-import
配置單元和HDFS是可選的,您可以隨時隨地選擇其中的任何一個來攜帶數據。
我的回答對你有幫助嗎? – Bector 2015-01-14 14:19:19