2011-01-06 81 views
2

最近,我遇到了一個博客,作者提到了關於集成Hbase和Hive的博客。這將是可能的嗎?如果是的話,兩者的優勢是什麼(在性能和可伸縮性方面)。如果我錯了,請糾正我。集成Hbase和Hive的優勢

回答

2

我認爲這將有可能,但不是微不足道的設置一點 - 也許CDH3最終將包括集成,當它出來。

優點:通過hbase進行Hive查詢。考慮加入並簡單地在HBase數據上進行彙總和簡單操作。

爲什麼不直接使用Hive而不打擾HBase? HBase爲您提供可擴展的存儲基礎架構,可保持數據在線。 StumbleUpon使用HBase作爲他們的直播網站。 Hive不是實時查詢引擎,因此其數據存儲不能用於類似目的。 Hive通過HBase爲您提供了兩個世界的好處。

0

目前有一個補丁可以在HBase和Hive之間加載數據。你可以在這裏找到它:

http://wiki.apache.org/hadoop/Hive/HBaseIntegration

實施開銷看起來是相當高的。

在HBase表上運行掃描並保存到外部文件然後將其導入到Hive中進行數據操作可能更容易。 (這也很麻煩,但如果你定期做它可以編寫腳本。)這是目前我正在處理的解決方案。我會讓你知道它是怎麼回事。至於你爲什麼選擇HBase而不是Hive,它們並不是真正可以互換的。 HBase意味着構建在Hadoop之上的高度可擴展的數據存儲,對數據分析的支持很少。另一方面,Hive不用於在生產環境中存儲數據,而是可以非常容易地在大量數據上運行特定查詢。