hive

30熱度

6回答

如何將.txt文件轉換爲Hadoop的序列文件格式

要有效利用Hadoop中的map-reduce作業，我需要將數據存儲在hadoop's sequence file format中。然而，目前的數據只是平坦的.txt格式。任何人都可以提出一種方法，我可以將.txt文件轉換爲序列文件？

19熱度

1回答

在Hive中創建臨時表？

Hive是否支持臨時表？我無法在apache文檔中找到它。

1熱度

1回答

限制hadoop配置單元映射作業的最大減速器的能力？

我試過前面加上我的查詢有： set mapred.running.reduce.limit = 25; 而且 set hive.exec.reducers.max = 35; 最後一個被判入獄與530級減速器工作到35 ......這讓我覺得這是要嘗試和鞋拔530級減速器的工作價值爲35 現在給 set mapred.tasktracker.reduce.tasks.maximum = 3

1熱度

1回答

可以將PIG和HIVE稱爲單獨的編程模型嗎？

這個問題可能聽起來很刺激，實際上並沒有什麼關係。這是我與我的一位同事進行的一場小型辯論的衍生。他一直堅持認爲HIVE和PIG可以被稱爲單獨的「編程模型」，因爲當你編寫MapReduce作業時，你並不需要考慮MapReduce - 特別是如果你正在編寫HIVE。從程序員的角度來看，MapReduce部分是完全抽象的。它完全像SQL一樣。但我有點不同意，因爲用這些語言編寫的腳本最終會轉換爲多個map

3熱度

2回答

蜂巢，Hadoop的，後面hive.exec.reducers.max

在此的其他問題here 使用hive.exec.reducers.max指令的情況下的力學已忠實地把我難倒了。從我的角度來看，我認爲配置單元可以處理某種邏輯，例如，在所需的查詢中有N個塊，因此我需要N個映射。從NI將需要一些合理範圍的減速器R，它可以是從R = N/2到R = 1的任何地方。對於我正在研究的蜂巢報告，有1200多幅地圖，沒有任何影響蜂巢制定了約400除了我正在研究一個總共只有70

8熱度

4回答

Apache Hive中的自動測試

我即將開始使用Apache Hadoop/Hive進行項目，這將涉及一系列配置單元查詢腳本，以便爲各種下游應用程序生成數據饋送。這些腳本似乎是某些單元測試的理想候選者 - 它們代表了我的數據存儲和客戶端應用程序之間的API合同的實現，因此，爲給定的一組起始數據編寫預期結果應該是多麼簡單。我的問題是如何運行這些測試。如果我正在使用SQL查詢，我可以使用類似SQLlite或Derby的東西來快速啓動

1熱度

1回答

如何在Apache Hive中爲（小）數據集並行化查詢

我正在測試我的數據集部分中的最新Hive。這只是幾GB的日誌文件，我通過自定義的SerDe讀取。當運行簡單GROUP BY的查詢（4個MR作業），我正在日誌如地圖：100％降低率：0％圖：85％降低率：0％地圖：86％降低率：0％一直只使用8核心服務器上的一個核心。一種浪費... 我已經激活了並行選項，但它仍然不會並行化。我已將減少作業的數量設置爲8. 我的期望是，由於我的數據集是

1熱度

2回答

向虛擬分佈式Hadoop節點添加一個新卷失敗

我試圖通過在hdfs-site.xml的dfs.name.dir中添加捲的位置來添加新捲到Hadoop僞分佈式節點，並且我可以看到鎖定文件在這個位置 - 但嘗試我可能，似乎當我加載文件（使用配置單元）這些位置很難使用（即使鎖文件和一些子文件夾出現..所以Hadoop顯然有權訪問它們）。當主卷臨近空間不足時，我會得到以下例外： Failed with exception java.io.IOExce

0熱度

2回答

如何使Hive從某個路徑加載元存儲而不是在當前目錄中創建？

我正在使用Hive進行一些數據處理。但是，無論何時啓動Hive-Shell，它都會在當前目錄中創建Metastore，並且無法訪問我在另一個目錄中創建的表。這對我來說有點煩人，我已經進入了特定的目錄，然後啓動Hive-Shell來查看我的表格。我試圖在hive-default.xml中配置路徑，但沒有成功。感謝

6熱度

3回答

Perl Thrift客戶端到Hive？

我想使用Perl連接到基於Hadoop的Hive數據存儲。 Hive允許使用Thrift接口（http://wiki.apache.org/hadoop/Hive/HiveClient）進行連接，並且有一個用於Perl的Thrift實現（例如http://metacpan.org/pod/Thrift::XS）。但是，我發現唯一的Thrift客戶端是Cassandra客戶端。任何想法，如果這樣的