0
我正在使用PIG和HBASE將一些信息存儲到數據庫中。我有一個從DUMP命令中獲取的數據集,它將在下一階段存儲在HBASE中。Hbase和PIG不存儲所有行
DUMP somedata;
產生其中具有如下面的重複行數據的塊。
(rowkey, cf:1, cf:2 ....)
(12345::456::idea, 4567, deleted, 2.3, next, super)
(12345::456::idea, 4567, deleted, 2.3, next, super)
(12345::456::idea, 4567, deleted, 2.3, next, super)
(12345::456::idea, 4567, deleted, 2.3, next, super)
(12345::456::idea, 4568, deleted, 2.3, next, super)
(12345::456::idea, 4568, deleted, 2.3, next, super)
(12345::456::idea, 4568, deleted, 2.3, next, super)
(12345::456::idea, 4569, deleted, 2.3, next, super)
(12345::456::idea, 4569, deleted, 2.3, next, super)
(12345::456::idea, 4569, deleted, 2.3, next, super)
當使用STORE命令將某些數據與HBaseStorage一起存儲時,所有重複的行都被刪除並存儲不同的行。我不確定這是否是預期的行爲。
出上述的只是它存儲
(12345::456::idea, 4567, deleted, 2.3, next, super)
(12345::456::idea, 4568, deleted, 2.3, next, super)
(12345::456::idea, 4569, deleted, 2.3, next, super)
而且有些時候它確實錯過了一些行,甚至儲存。
任何人都可以澄清這一點嗎?
可以添加plz代碼和hbase表定義嗎? – 54l3d