2014-10-20 122 views
2

從官方Hive documentation蜂巢替代大數據查詢

蜂巢旨在爲 交互式數據瀏覽提供可接受的(但不是最優的)等待時間,對小數據集或測試 查詢的查詢。

我不是數據庫體系結構方面的專家,我想知道是否有另一種時,上述假設的是不正確的,那就是,當查詢在大數據集製作。

回答

4

有幾種方法可以使查詢運行速度顯着加快。我我就不會去到那些細節,但你可以探索以下:

  1. Cloudera的Impala的:由Cloudera的開發http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html

  2. 普雷斯托DB:被Facebook http://prestodb.io/開發

  3. Spark SQL:構建於Spark之上(https://spark.apache.org/sql/

有很多很好的文章比較蜂巢與帕拉斯vs普雷斯托和比較他們的表現。你可以閱讀它們並選擇最適合你的用例。這是一個鏈接,比較它們的優點和缺點:http://bigdatanerd.wordpress.com/2013/11/19/war-on-sql-over-hadoop/

0

從你的問題我可以證明你想減少查詢的延遲...但你可以用hdfs作爲數據存儲......你有許多替代品,如presto和spark sql ...他們都與蜂巢無縫集成,但具有相當的性能優勢.....另一種選擇可以將數據存儲轉移到無數據庫....如果你想使用HDFS作爲數據存儲hbase可以提供一些性能上的好處....其他可以是mongo,cassandra等