hive

    11熱度

    2回答

    假設我有此RDBM表(Entity-attribute-value_model): col1: entityID col2: attributeName col3: value ,我想使用HBase的因結垢的問題。 我知道訪問Hbase表的唯一方法是使用主鍵(遊標)。您可以爲特定鍵獲取遊標,並逐一迭代行。 問題是,在我的情況下,我想能夠迭代所有3列。 例如: 對於一個給定的ENTITYID

    1熱度

    1回答

    我有很多亞馬遜簡單數據庫域中的數據。我想在Elastic Map Reduce(在hadoop之上)啓動Hive,並以某種方式從simpledb導入數據,或者連接到simpledb並在其上運行hiveql查詢。我有導入數據的問題。任何指針?

    7熱度

    3回答

    我正在尋找替換一堆執行夜間/小時數據彙總和大量數據統計收集的Python ETL腳本。 我想達成什麼是 魯棒性 - 一個失敗的作業/步應自動重新啓動。在某些情況下,我想執行恢復步驟。 框架必須能夠從崩潰中恢復。我想這裏需要一些持久性。 監控 - 我需要能夠監控作業/步驟的進度,並且最好查看關於性能的歷史和統計數據。 可追溯性 - 我必須能夠理解執行的狀態 手動干預 - 很高興能...能夠從API/

    -2熱度

    5回答

    我想用實用的JDBC創建表。但是,我無法真正看到我從hive shell創建的表。更糟糕的是,當我從不同目錄訪問配置單元外殼時,我看到數據庫的不同結果。 是否需要配置任何設置? 在此先感謝。

    1熱度

    1回答

    我試圖在執行查詢後關閉連接。以前,我只是創建一個CachedRowSetImpl實例,它會照顧爲我釋放資源。但是,我正在使用Hadoop項目中的Hive數據庫驅動程序。它不支持CachedRowSetImpl.execute()。我想知道是否有任何其他方式允許我複製ResultSet對象並關閉連接?

    0熱度

    1回答

    我正在嘗試一個小型hadoop設置(用於實驗)只有2臺機器。我正在加載大約13GB的數據,大約3900萬行的表格,使用Hive的複製因子爲1。 我的問題是hadoop始終將所有這些數據存儲在單個datanode上。只有當我使用setrep將dfs_replication因子更改爲2時,hadoop纔會在另一個節點上覆制數據。我也嘗試過平衡器($HADOOP_HOME/bin/start-balan

    9熱度

    3回答

    我一直在嘗試使用Hive進行一些數據挖掘活動,並且希望能夠讓更少的面向命令行的同事輕鬆使用它。 蜂巢現在帶有一個網絡界面(http://wiki.apache.org/hadoop/Hive/HiveWebInterface),但在這個階段它是非常基礎的。 我的問題是視覺拋光和功能齊全的界面(桌面或最好是基於Web)到蜂巢存在嗎?他們在Hive項目之外的任何開源工作是否可以解決這個問題?

    2熱度

    3回答

    我已經從註冊表中得到了一個.Hive文件,我必須解析並將內容用作html報告的一部分(從這個我假設我必須轉換爲文字莫名其妙)。整個事情必須在程序中完成,所以我不能轉換蜂巢文件,然後通過我的程序運行它。我目前不知道如何開始這個,所以任何幫助都會很棒。 任何想法都太棒了!

    1熱度

    1回答

    首先我會說我已經閱讀了帖子here,但我仍然遇到了麻煩。 我試圖創建一個CE6映像與基於配置單元的註冊表,實際上通過重新啓動存儲結果。 我已經勾選了目錄項中的配置單元設置。 common.reg中,我給自己定了蜂巢的位置([HKEY_LOCAL_MACHINE \ INIT \ BootVars]「SystemHive」),以「硬盤驅動器\註冊表」(注:閃光燈顯示爲一個名爲「硬盤驅動器設備「) 在

    3熱度

    6回答

    我想以異步方式在服務器上執行Hive查詢。 Hive查詢可能需要很長時間才能完成,因此我不希望阻止該呼叫。我目前使用Thirft進行阻塞調用(在client.execute()上的阻塞),但我還沒有看到如何進行非阻塞調用的示例。這裏是阻止代碼: TSocket transport = new TSocket("hive.example.com", 10000); transport.