2012-08-11 56 views
0

我打算做一個項目來實現HBase中的所有聚合操作。但我不知道它的困難。我只有6個月的時間來完成這個項目。我應該繼續嗎?我打算用java來做。我知道已經有一些聚合函數。但是現在沒有INNER JOIN像查詢那樣。我打算實施這種類型的查詢。我不知道這是一個錯誤或虛張聲勢。HBase內部加入和協處理器

回答

0

HBase肯定比在RDBMS或像PIG或Hive這樣的其他Hadoop技術中做得更難。

1

我想技術上我們應該區分兩種類型的連接:
a)一個小表+一個大表。小表我的意思是表可以緩存在每個節點的內存中,而不會嚴重影響集羣操作。在這種情況下,應該可以通過在散列映射中放置小表來實現使用協處理器的連接,迭代大表的數據的節點本地部分,並且以這種方式產生連接結果。在Hive的術語中,它被稱爲「地圖」加入http://www.facebook.com/note.php?note_id=470667928919
b)兩張大桌子。我認爲在短時間內獲得產品質量並不可行。我可能會說,這樣的功能是MPP數據庫的領域,也是他們IP的重要組成部分。