假設我們沒有在那裏值均勻分佈列,假設我們有這樣的命令:SQOOP中的--split-by和--boundary-query有什麼區別?
sqoop import \
...
--boundary-query "SELECT min(id), max(id) from some_table"
--split-by id
...
這裏有什麼用--boundary查詢點,而--split-通過做的一樣? 有沒有其他的方式來使用 - 邊界查詢? 或者在沒有關鍵字(唯一)列的情況下以其他方式更有效地分割數據?
我無法理解--split-by如何統一分割。如果我沒有一個接近均勻分佈的列,並且必須選擇一個; {1,25430002,25430002,25340003,25520001,27345001,... 24466002} 我知道這是一個荒謬的例子,但我想說的是--split-by處理4個節點(或者更多,除非你有1k個節點或者其他東西),通過將大於25000000的百萬個分配給單個節點只是因爲它有1個節點。 如何使用--split-by統一分割(如果表沒有均勻分佈的列)? – burakongun
@burakongun查看我的[回覆](http://stackoverflow.com/questions/37042357/sqoop-data-splitting/37048390#37048390)瞭解數據分解如何在sqoop中工作。 –
@burakongun檢查我編輯的答案。 –