mapreduce

    0熱度

    1回答

    我的基於mapreduce的hive sql在Yarn上運行,hadoop版本是2.7.2。我想要的,它限制映射器任務或減速器任務同時運行當一些配置單元sql是真的很大。我曾嘗試下面的參數,但實際上他們是不是我想要的: mapreduce.tasktracker.reduce.tasks.maximum: The maximum number of reduce tasks that will b

    1熱度

    3回答

    這是我的Java HBase的CREATETABLE以下程序: - public class createtable { public static void main(String[] args) throws IOException { Configuration conf = HBaseConfiguration.create(); con

    1熱度

    4回答

    我寫一個反應,和/終極版應用程序中使用ES6和我想的有效方式映射這樣的數據: [ {total: 50, label: "C1"}, {total: 120, label: "C2"}, {total: 220, label: "C4"} ] 的東西象下面這樣: [ {50, "Category 1"}, {120, "Category 2"

    0熱度

    2回答

    任何人都可以幫助我使用映射器函數和簡化器函數來查找文本文件中最小的單詞嗎? import sys #importing from the system smallest = None for line in sys.stdin: #taking input from the system line = line.strip() #leaving the unwanted whi

    0熱度

    1回答

    我有2個幾乎相同的CDH 5.8簇,即Lab & Production。我有一個在Lab中運行良好的mapreduce作業,但在生產羣集中失敗。我已經花了超過10個小時了。我確保我運行完全相同的代碼,並比較了羣集之間的配置。我找不到任何區別。 唯一的區別我可以看到的是當我在生產運行,我看到這些警告: 還要注意,緩存文件的路徑始於「文件://空/」 17/08/16 10:13:14 WARN ut

    0熱度

    1回答

    我一直在使用HBase的出口實用工具所採取的HBase的表備份。 hbase org.apache.hadoop.hbase.mapreduce.Export "FinancialLineItem" "/project/fricadev/ESGTRF/EXPORT" 這已經踢在mapreduce並將我所有的表數據轉移到輸出文件夾。 根據該文件,輸出文件的文件格式將是序列文件。 所以我跑下面的代

    0熱度

    1回答

    我確實使用Sesame(RDF4j)API編寫了一個Java應用程序來測試> 700個SPARQL端點的可用性,但它需要數小時才能完成,因此我試圖使用Hadoop/MapReduce框架分發此應用程序。 現在的問題是,在映射程序類中,應該測試可用性的方法不起作用,我認爲無法連接到端點。 下面的代碼我使用: public class DMap extends Mapper<LongWritable,

    0熱度

    1回答

    我在MR作業的映射階段中使用了一個自定義可寫類作爲VALUEOUT,其中類有兩個字段A org.apache.hadoop.io.Text和org.apache.hadoop.io.MapWritable。在我的reduce函數中,遍歷每個鍵的值,並執行兩個操作:1. filter,2. aggregate。在過濾器中,我有一些規則來檢查MapWritable中的某些值(鍵爲Text,值爲IntW

    0熱度

    2回答

    我試圖改變MR作業的日誌級別的日誌級別,我用下面的命令: hadoop jar appMR.jar MainMR -Dmapreduce.map.log.level=DEBUG <args...> 但-Dmapreduce.map.log.level=DEBUG去的第一個參數來工作。 有沒有辦法做到這一點,只爲一個特定的MR作業,而不需要改變log4j屬性文件中的級別?

    0熱度

    1回答

    需要過濾豬在某一天的記錄。所以樣本數據如下: date_time visits count 2017-08-25 02:05:11 12345 5 2017-08-25 02:05:31 23456 7 2017-08-25 02:05:51 34567 1 2017-08-25 02:06:40 13423 3 在上面的案例中,我們只需要前3個匹配。