mapreduce

    0熱度

    1回答

    我有一個家庭作業,我必須寫在斯卡拉MapReduce的程序,找出一個字,爲文件哪個字每個字那最遵循。 例如,對於單詞「籃球」,單詞「is」接下來5次,「有」2次,「法院」1次。 在文本文件中,這可能顯示爲: 籃球.....(這個順序發生5次) 籃球有.....(這個順序發生2次) 籃球場....(這個序列發生1次) 我很難理解如何做到這一點。 的想法,我有過,但一直沒能成功實施是 迭代通過每一個字

    0熱度

    1回答

    我試圖實現不同模式: map(key, record): emit record,null reduce(key, records): emit key 我的鑰匙是一個複雜的,定製Writable。如果我發出減少鍵及其散列碼:我收到以下輸出 context.write(key, new IntWtitable(key.hashCode()); : key1 -1808

    0熱度

    1回答

    的過程我有數據。我正在使用Pig到流程此數據。 PigSummarize數據將存儲在Hive中。然後配置單元表使用Sqoop在RDBMS中導出。現在我需要自動化所有這個過程。這是可能的,我會寫所有這些任務3特定的方法在的MapReduce,然後運行該的MapReduce工作,而所有這些任務由一個執行一個。 對於創建MapReduce作業,我想使用。 NetSDK。所以我的問題是這是可能的,並且如果

    1熱度

    1回答

    假設hadoop系統中的節點有8GB內存可用。 如果任務跟蹤器和數據節點消耗2GB,並且每個任務所需的內存爲200MB,那麼可以開始多少個map和reduce? 8-2 = 6GB 所以,6144MB/200MB = 30.72 所以,30總Map和Reduce任務將開始。 我是對的還是我錯過了什麼?

    0熱度

    1回答

    我正嘗試使用sqoop job將數據從oracle遷移到Hbase。它看起來像已成功導出,但在導入時會引發錯誤同樣在Hbase。 崗位1: ​ `​sqoop import --verbose --connect *** --username *** --password *** --table 'abc' --columns "MID,EID,RTIMESTAMP,VALUE,UTIMESTAM

    0熱度

    1回答

    package com.delhi; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.a

    1熱度

    2回答

    我正在使用reduce函數,它循環遍歷我的JSON文件並將指定的鍵值彙總在一起。 這工作正常,直到我刪除其中的一個值。 我的JSON是: [{ "id": 100, "jobNumber": 1, "jobTasks": [{ "id": 12, "cost": { "amountString": 100

    1熱度

    1回答

    我有一個從.txt文件創建哈希表的方法,並使用該哈希表爲傳遞給Reducer的值中的單詞賦值。下面是我試圖做到這一點: @Override public void setup(Context context) throws IOException { Path pt = new Path("hdfs:/user/jk/sentiwords.txt"); FileSystem

    0熱度

    4回答

    我正在學習hadoop map-reduce算法,我是java新泛型概念的新手,我能夠理解泛型能夠爲使用參考類型。但無法理解爲什麼同一參數類型被宣佈爲不止一次大括號內的<。 下面是一個減速器類定義,它實現了減速器接口的類型聲明爲< Text,IntWritable,Text,IntWritable>。爲什麼不能如< Text,IntWritable> alone? public static cl

    0熱度

    1回答

    我正在解析數據以便通過MapReduce作業獲得某種意義。解析的數據以批次的形式出現。它通過火花流工作進一步加載到配置外部表。這是一個實時過程。現在我面臨一個不尋常的事件,因爲在輸出位置創建了_temporary目錄,由於目錄無法加載到配置單元表中,因此加載到配置單元表失敗。它只發生過一次,其餘的工作都運行良好。請參閱截圖。 _temporary目錄中還包含任務ID作爲子目錄它們是空的。任何人都可