mapreduce

    2熱度

    3回答

    我使用亞馬遜網絡服務做在MapReduce的一個項目劈裂字符串時,我有這樣的錯誤: FATAL [main] org.apache.hadoop.mapred.YarnChild: Error running child : java.lang.StackOverflowError at java.util.regex.Pattern$GroupHead.match(Pattern.java:46

    0熱度

    2回答

    這是我第一次用python學習Hadoop MapReduce。 我寫了一個map.py來獲取兩個文件的文件名,以瞭解如何連接兩個文件。 這裏有兩個CSV文件: worksheet1.csv sno,name 1,name1 2,name2 3,name3 4,name4 worksheet2.csv sno,courseno,grade 1,1,80 1,2,90 2,1,82

    0熱度

    1回答

    我有問題語句,其中我需要在「config.first.second」子級別的所有字段名稱,其中include字段至少爲一次。 這是我的mongo集合對象。 [ { "_id" : ObjectId("560e97f4a78eb445cd2d75e5"), "config" : { "first" : { "second" : {

    2熱度

    1回答

    我想實現Mapside加入使用CompositeTextInoutFormat。不過,我在Map reduce工作中遇到了以下錯誤,我無法解決這個問題。 1.在下面的代碼中,我在使用Compose方法時出現錯誤,並在設置inputformat Class時出現錯誤。錯誤如下所示。 在 類型CompositeInputFormat方法撰寫(字符串,類,路徑...)不適用於參數 (字符串,類,路徑[]

    2熱度

    2回答

    我已經在Python中編寫了一個簡單的MapReduce示例。如果輸入是一個文件,例如text文件,爲了運行代碼,我們只需使用以下模式:cat <data> | map | sort | reduce,例如在我的情況下,它是:cat data | ./mapper.py | sort | ./reducer.py並且所有的東西都是正確的。 但我更改了我的映射器和縮減器以讀取directory中包含

    0熱度

    1回答

    我已經使用Hadoop中的計數器來統計不同類型的LIC客戶。下面是我的代碼 - 地圖 import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.io.IntWritable; import o

    6熱度

    1回答

    我的應用程序將多個文檔類型存儲在同一個存儲桶中。我知道這不是一個好習慣,但是我可以在我的服務器上創建多少個桶,並且目前還沒有辦法繞過它。這些文檔的前綴是它們的類型,所以當我得到一個文檔時,我只需要連接前綴和id來獲得密鑰,我可以做一個關鍵的查找。 我需要創建一個報告,其中來自多個文檔類型的信息。 我的地圖看起來是這樣的: function(doc, meta) { var getSte

    0熱度

    1回答

    我有許多json文檔存儲在一個Cloudant數據庫中。文檔結構: { "_id": "00229e31d5751d337abf409a4bd75492", "_rev": "1-d95d7ad32264d233453a0436b1557e7d", "timestamp": "2017-07-04T21:28:46.886Z", "APIresponse":

    0熱度

    1回答

    我是Map Reduce的新手,並試圖解決一些問題,以便更好地通過實施學習。 背景: 我從movielens.com數據集,其中有各種電影評級。我正在嘗試計算電影的最大評分,並按照評分計數以降序對最終輸出進行排序(輸出的默認排序是通過電影ID進行的)。我想是這樣的: movieId:RATING_COUNT(排序在RATING_COUNT降序) 我搜索網頁和發現,我可以通過自定義按鍵實現這一目標。

    0熱度

    1回答

    MR作業使用128個映射器啓動,但只有7個並行運行。我如何增加並行運行地圖任務的數量? 感謝