mapreduce

    1熱度

    1回答

    我有一堆大型的HTML文件,我想在它們上運行Hadoop MapReduce作業來查找最常用的單詞。我用Python編寫了我的mapper和reducer,並使用Hadoop streaming來運行它們。 這裏是我的映射: #!/usr/bin/env python import sys import re import string def remove_html_tags(in_

    1熱度

    2回答

    在編寫MapReduce作業(特別是Hadoop,如果相關時)時,必須定義一個map()和一個reduce()函數,這兩個函數都會產生一系列鍵/值對。鍵和值的數據類型可以由應用程序自由定義。 在字數統計的規範示例中,兩個函數都產生(string, int)類型的對,其中鍵爲單詞,值爲出現次數。這裏 - 以及我見過的所有其他示例 - 兩個函數之間輸出的鍵和值類型是一致的。 在MapReduce的任何

    0熱度

    2回答

    我一直在尋找使用MapReduce來構建一個並行記錄組合系統。語言並不重要,我可以使用Hadoop之類的預先存在的庫,或者在必要時構建我自己的庫,我並不擔心這一點。 然而,我一直在遇到的問題是,我需要在多個條件上匹配記錄。例如:我可能需要匹配基於人名或該人的電話號碼的記錄,但不一定是該人的姓名和電話號碼。 例如,假設每條記錄的下列鍵: '約翰·史密斯' 和 '555-555-5555' '簡·史密

    7熱度

    3回答

    僅使用映射器(Python腳本)並且不使用縮減器,我怎樣才能輸出一個單獨的文件,其中鍵爲文件名,對於每行輸出而不是長輸出文件?

    20熱度

    4回答

    有人可以勾勒出不同的Hadoop分佈之間的各種不同版本: Cloudera的 - http://www.cloudera.com/hadoop 雅虎 - http://developer.yahoo.net/blogs/hadoop/ 使用Apache的Hadoop發行版作爲一個基線。 有沒有好理由在標準Apache Hadoop發行版中使用這些發行版之一?

    12熱度

    2回答

    我希望我以正確的方式提出這個問題。我正在學習使用Elastic MapReduce的方法,並且我已經看到許多對「聚合」縮減器的引用,它們可以與「流式處理」作業流程一起使用。 在亞馬遜的「介紹到亞馬遜彈性MapReduce」 PDF它指出:「亞馬遜彈性MapReduce有一個名爲彙集起來默認減速器」 我想知道的是:有其他默認減速availiable? 我明白我可以編寫自己的reducer,但我不想最

    2熱度

    2回答

    從數據流的角度來看MapReduce和HBase的組合,我的問題似乎很適合。我有一大堆我想要映射,合併和減少的文檔。我之前的SQL實現是將任務分解爲批處理操作,將Map的結果累積存儲到表中,然後執行等同於reduce的操作。這有一個好處,就是在執行過程中(或執行過程中)的任何時候,我都能得到當時Map的結果。 據我瞭解,作爲MapReduce運行這項工作將需要所有的Map函數每次運行。 我的地圖功

    5熱度

    3回答

    我即將啓動一個將在AWS上運行的mapreduce項目,並提供一個選項,以使用Java或C++。 我知道用Java編寫項目會使我有更多的功能,但是C++也可以通過Hadoop Streaming來實現。 請注意,我在兩種語言中都沒有背景知識。一個類似的項目已經在C++中完成,代碼對我來說是可用的。 所以我的問題是:這是通過AWS提供的額外功能,還是隻有在您對雲有更多控制時才相關?爲了做出決定,還有

    6熱度

    1回答

    我正在構建Hadoop(0.20.1)mapreduce作業,它使用HBase(0.20.1)作爲數據源和數據接收器。我想用Python編寫這個工作,它需要我使用hadoop-0.20.1-streaming.jar來將數據傳入和傳出我的Python腳本。如果數據源/接收器是HDFS文件,這工作正常。 Hadoop是否支持從/到HBase的mapreduce流?

    2熱度

    3回答

    我在考慮在hadoop中構建一個小測試應用程序以獲取系統的掛起。 我想到的應用程序將在統計領域。 我想從我的reducer函數(其中我必須假設可能有大量值用於某些鍵)中得到「每個鍵的10個最差值」。 我的計劃是,進入我的減速機的價值基本上是「實際價值」和「實際價值的質量/相關性」的組合。 基於相關性,我「簡單地」想要採用10個最差/最佳值並從減速器輸出它們。 我該如何去做(假設特定鍵的數量巨大)?