mapreduce

0熱度

1回答

在Hadoop中，我們可以獲取地圖輸入文件路徑爲; Path pt = new Path(((FileSplit) context.getInputSplit()).getPath().toString()); 但我找不到任何文檔如何從Azure Blob存儲帳戶實現此目的。有沒有辦法從mapreduce程序中獲取Azure Blob路徑？

0熱度

1回答

默認情況下，MapReduce的輸入鍵是什麼？

我使用MpaReduce基於hadoop 2.6.0，我想跳過前六行我的數據文件的，所以我用 if(key.get()<6) return ; else {do ....} 我 map() function 。但它是不正確的。我發現map()的input key不是文件行的offset。關鍵是每一行的長度的總和。爲什麼？它看起來不像許多書中的單詞。

0熱度

1回答

對於MapReduce作業，使用1個4核的機器和4個1核的機器相同？

我在Google Cloud上創建了一個集羣，他們讓我選擇要使用多少臺計算機以及每臺計算機上應該安裝多少個核心。如果我想運行MapReduce作業，請求8臺帶有1個內核的機器和每臺需要2個4內核的機器有什麼實際區別？

2熱度

1回答

我們真的需要在MapReduce框架中進行排序嗎？

我對MapReduce完全陌生，無法理解需要根據每個分區中的鍵對映射器輸出進行排序。最終，我們需要的是，一個減速器供給一個由多對<key,List of Values>組成的分區，並且每對中的密鑰不僅對於相應的分區是唯一的，而且對於被饋送到不同減速器的所有分區是唯一的。爲了做到這一點，需要在任何階段做sort。我們不能使用hash table來分組對應於相同密鑰的值嗎？分解爲每個階段。在映射階

1熱度

1回答

映射器何時將其輸出存儲到本地硬盤？

我知道映射器的輸出（中間數據）存儲每個單獨的映射數據的節點的本地文件系統（未HDFS）上。這通常是臨時目錄，可以由Hadoop管理員在配置中設置。一旦Mapper作業完成或數據傳輸到Reducer，這些中間數據就會被清理乾淨並且無法訪問。但是，我想知道映射器何時將其輸出存儲到本地硬盤？是否因爲數據太大而無法存儲？只有正在處理的數據保留在內存中？如果數據很小並且整個數據可以放在內存中，那麼沒有磁

1熱度

2回答

在reducer任務中調用reduce函數之前發生洗牌嗎？

例如在字計數工作，我有2名映射器映射器A和B.映射映射器A的輸出是：{hi,1},{hello,1},{hey,1} 映射器B的輸出是：{hi,1},{bye,1},{hey,1} 假設，沒有組合器和1級減速器然後，首先，混洗髮生這樣，在洗牌兩個MAPP的輸出ERS合併並將得到的是： {hi,[1,1]},{hello,1},{hey,[1,1]},{bye,1} 然後排序發生的情況：

0熱度

1回答

錯誤：Python3.4 - > java.lang.RuntimeException：PipeMapRed.waitOutputThreads（）：子進程失敗，代碼爲1

我在Hadoop上使用Python mrjob庫時出現問題。我搜索了這個錯誤，但我不知道解決方案。我做chmod +x pythonFile，插入.py文件#!/usr/bin/env python 我的錯誤看起來像......（只要） [email protected] ~/python $ python3 MovieRecommender.py -r hadoop --items hdf

1熱度

2回答

如何在sklearn的預處理.scale中使用Python的map函數？

我想在數據列表上使用一個函數（preprocessing.scale）。我對Python中的mapreduce/parallelism是新手 - 我想在大量的數據列表上處理它以提高性能。例子： X = [1,2,3,4] 使用語法： list(map(preprocessing.scale, X)) 我得到這個錯誤： TypeError: Singleton array array(1.

0熱度

1回答

來自namenode的Hadoop資源管理器ip地址

您好我正在嘗試使用http://hadoop-namenode-address:50070/jmx找出hadoop管理的羣集信息。我設法在集羣中數據節點的名單，但無法獲得有關二次名稱節點，ResourceManager中並且節點管理器的IP地址信息有沒有辦法從NameNode會找到它使用rest api。

2熱度

1回答

在bash中如何將multimap <K,V>轉換爲<K, {V1,V2}>的地圖

我正在處理bash中的文件輸出，並需要按鍵對值進行分組。例如，我有 13,47099 13,54024 13,1 13,39956 13,0 17,126223 17,52782 17,4 17,62617 17,0 23,1022724 23,79958 23,80590 23,230 23,1 23,118224 23,0 23,1049 42,72470