hive

    30熱度

    6回答

    要有效利用Hadoop中的map-reduce作業,我需要將數據存儲在hadoop's sequence file format中。然而,目前的數據只是平坦的.txt格式。任何人都可以提出一種方法,我可以將.txt文件轉換爲序列文件?

    19熱度

    1回答

    Hive是否支持臨時表?我無法在apache文檔中找到它。

    1熱度

    1回答

    我試過前面加上我的查詢有: set mapred.running.reduce.limit = 25; 而且 set hive.exec.reducers.max = 35; 最後一個被判入獄與530級減速器工作到35 ......這讓我覺得這是要嘗試和鞋拔530級減速器的工作價值爲35 現在給 set mapred.tasktracker.reduce.tasks.maximum = 3

    1熱度

    1回答

    這個問題可能聽起來很刺激,實際上並沒有什麼關係。這是我與我的一位同事進行的一場小型辯論的衍生。他一直堅持認爲HIVE和PIG可以被稱爲單獨的「編程模型」,因爲當你編寫MapReduce作業時,你並不需要考慮MapReduce - 特別是如果你正在編寫HIVE。從程序員的角度來看,MapReduce部分是完全抽象的。它完全像SQL一樣。 但我有點不同意,因爲用這些語言編寫的腳本最終會轉換爲多個map

    3熱度

    2回答

    在此的其他問題here 使用hive.exec.reducers.max指令的情況下的力學已忠實地把我難倒了。 從我的角度來看,我認爲配置單元可以處理某種邏輯,例如,在所需的查詢中有N個塊,因此我需要N個映射。從NI將需要一些合理範圍的減速器R,它可以是從R = N/2到R = 1的任何地方。對於我正在研究的蜂巢報告,有1200多幅地圖,沒有任何影響蜂巢制定了約400除了我正在研究一個總共只有70

    8熱度

    4回答

    我即將開始使用Apache Hadoop/Hive進行項目,這將涉及一系列配置單元查詢腳本,以便爲各種下游應用程序生成數據饋送。這些腳本似乎是某些單元測試的理想候選者 - 它們代表了我的數據存儲和客戶端應用程序之間的API合同的實現,因此,爲給定的一組起始數據編寫預期結果應該是多麼簡單。我的問題是如何運行這些測試。 如果我正在使用SQL查詢,我可以使用類似SQLlite或Derby的東西來快速啓動

    1熱度

    1回答

    我正在測試我的數據集部分中的最新Hive。這只是幾GB的日誌文件,我通過自定義的SerDe讀取。 當運行簡單GROUP BY的查詢(4個MR作業),我正在日誌如 地圖:100% 降低率:0% 圖:85% 降低率:0% 地圖:86% 降低率:0% 一直只使用8核心服務器上的一個核心。一種浪費... 我已經激活了並行選項,但它仍然不會並行化。我已將減少作業的數量設置爲8. 我的期望是,由於我的數據集是

    1熱度

    2回答

    我試圖通過在hdfs-site.xml的dfs.name.dir中添加捲的位置來添加新捲到Hadoop僞分佈式節點,並且我可以看到鎖定文件在這個位置 - 但嘗試我可能,似乎當我加載文件(使用配置單元)這些位置很難使用(即使鎖文件和一些子文件夾出現..所以Hadoop顯然有權訪問它們)。當主卷臨近空間不足時,我會得到以下例外: Failed with exception java.io.IOExce

    0熱度

    2回答

    我正在使用Hive進行一些數據處理。但是,無論何時啓動Hive-Shell,它都會在當前目錄中創建Metastore,並且無法訪問我在另一個目錄中創建的表。這對我來說有點煩人,我已經進入了特定的目錄,然後啓動Hive-Shell來查看我的表格。 我試圖在hive-default.xml中配置路徑,但沒有成功。 感謝

    6熱度

    3回答

    我想使用Perl連接到基於Hadoop的Hive數據存儲。 Hive允許使用Thrift接口(http://wiki.apache.org/hadoop/Hive/HiveClient)進行連接,並且有一個用於Perl的Thrift實現(例如http://metacpan.org/pod/Thrift::XS)。但是,我發現唯一的Thrift客戶端是Cassandra客戶端。 任何想法,如果這樣的