2016-06-10 100 views
0

我正在尋找將增量數據(基於源表的時間戳)加載到我的表中的最佳方法。我有一個數據源每天更新的源表(在hbase中)。在第一個流程中,我將不得不將全部數據傳輸到我的測試表(以hbase爲單位)。第二天,我只需要傳輸源表中新添加的記錄。爲此,我將使用時間戳來區分需要傳送的內容和不傳送的內容。那麼哪個是最好的轉移方式。我應該使用PIG,MapReduce還是Spark?在hbase中增量數據加載

回答

0

你有沒有考慮過使用現有的課程,如org.apache.hadoop.hbase.mapreduce.CopyTable?他們支持增量複製。

無需編寫代碼。

+0

我讀了關於使用複製表的增量數據加載。但我找不到任何例子。你可以請給我一個例子,使用可複製的增量加載.. –

+0

所以這個想法是你使用starttime和endtime。 1. hbase org.apache.hadoop.hbase.mapreduce.CopyTable --new.name = tableCopy tableOriginal --starttime = 1 --endtime = 1465735288000然後2. hbase org.apache.hadoop.hbase.mapreduce.CopyTable - -new.name = tableCopy tableOriginal --starttime = 1465735288000 --endtime = 1465821688000所以你需要計算你完成的地方。 – rrydziu

+0

感謝哥們。我試試這個.. –