hive

11熱度

2回答

假設我有此RDBM表（Entity-attribute-value_model）： col1: entityID col2: attributeName col3: value ，我想使用HBase的因結垢的問題。我知道訪問Hbase表的唯一方法是使用主鍵（遊標）。您可以爲特定鍵獲取遊標，並逐一迭代行。問題是，在我的情況下，我想能夠迭代所有3列。例如：對於一個給定的ENTITYID

1熱度

1回答

如何在Amazon Elastic Mapreduce之上使用Hive來處理Amazon Simple DB中的數據？

我有很多亞馬遜簡單數據庫域中的數據。我想在Elastic Map Reduce（在hadoop之上）啓動Hive，並以某種方式從simpledb導入數據，或者連接到simpledb並在其上運行hiveql查詢。我有導入數據的問題。任何指針？

7熱度

3回答

Spring-Batch每小時一次的Hive/MySQL數據處理

我正在尋找替換一堆執行夜間/小時數據彙總和大量數據統計收集的Python ETL腳本。我想達成什麼是魯棒性 - 一個失敗的作業/步應自動重新啓動。在某些情況下，我想執行恢復步驟。框架必須能夠從崩潰中恢復。我想這裏需要一些持久性。監控 - 我需要能夠監控作業/步驟的進度，並且最好查看關於性能的歷史和統計數據。可追溯性 - 我必須能夠理解執行的狀態手動干預 - 很高興能...能夠從API/

-2熱度

5回答

hadoop配置單元問題

我想用實用的JDBC創建表。但是，我無法真正看到我從hive shell創建的表。更糟糕的是，當我從不同目錄訪問配置單元外殼時，我看到數據庫的不同結果。是否需要配置任何設置？在此先感謝。

1熱度

1回答

複製ResultSet而不使用CachedRowSetImpl.execute（）

我試圖在執行查詢後關閉連接。以前，我只是創建一個CachedRowSetImpl實例，它會照顧爲我釋放資源。但是，我正在使用Hadoop項目中的Hive數據庫驅動程序。它不支持CachedRowSetImpl.execute()。我想知道是否有任何其他方式允許我複製ResultSet對象並關閉連接？

0熱度

1回答

即使在hadoop/hive上的數據分發

我正在嘗試一個小型hadoop設置（用於實驗）只有2臺機器。我正在加載大約13GB的數據，大約3900萬行的表格，使用Hive的複製因子爲1。我的問題是hadoop始終將所有這些數據存儲在單個datanode上。只有當我使用setrep將dfs_replication因子更改爲2時，hadoop纔會在另一個節點上覆制數據。我也嘗試過平衡器（$HADOOP_HOME/bin/start-balan

9熱度

3回答

Hadoop Hive網頁界面選項

我一直在嘗試使用Hive進行一些數據挖掘活動，並且希望能夠讓更少的面向命令行的同事輕鬆使用它。蜂巢現在帶有一個網絡界面（http://wiki.apache.org/hadoop/Hive/HiveWebInterface），但在這個階段它是非常基礎的。我的問題是視覺拋光和功能齊全的界面（桌面或最好是基於Web）到蜂巢存在嗎？他們在Hive項目之外的任何開源工作是否可以解決這個問題？

2熱度

3回答

C＃.NET導入註冊表配置單元並解析其內容

我已經從註冊表中得到了一個.Hive文件，我必須解析並將內容用作html報告的一部分（從這個我假設我必須轉換爲文字莫名其妙）。整個事情必須在程序中完成，所以我不能轉換蜂巢文件，然後通過我的程序運行它。我目前不知道如何開始這個，所以任何幫助都會很棒。任何想法都太棒了！

1熱度

1回答

基於Hive的Flash註冊表

首先我會說我已經閱讀了帖子here，但我仍然遇到了麻煩。我試圖創建一個CE6映像與基於配置單元的註冊表，實際上通過重新啓動存儲結果。我已經勾選了目錄項中的配置單元設置。 common.reg中，我給自己定了蜂巢的位置（[HKEY_LOCAL_MACHINE \ INIT \ BootVars]「SystemHive」），以「硬盤驅動器\註冊表」（注：閃光燈顯示爲一個名爲「硬盤驅動器設備「）在

3熱度

6回答

如何在Java中對Hive進行異步調用？

我想以異步方式在服務器上執行Hive查詢。 Hive查詢可能需要很長時間才能完成，因此我不希望阻止該呼叫。我目前使用Thirft進行阻塞調用（在client.execute（）上的阻塞），但我還沒有看到如何進行非阻塞調用的示例。這裏是阻止代碼： TSocket transport = new TSocket("hive.example.com", 10000); transport.