mapreduce

    1熱度

    1回答

    我正在研究如何使用MapReduce系統來提供網頁,並且我已經看到負載平衡器已經用於分發網頁請求。有沒有任何理由地圖縮小系統,例如Hadoop無法做到這一點?

    4熱度

    1回答

    我一直在學習mapreduce算法以及它如何可能擴展到數百萬臺機器,但我不明白如何在映射階段之後對中間鍵進行排序可以縮放,因爲會有: 1,000,000 x 1,000,000 :潛在的機器將中間結果的小鍵/值對彼此進行通信?這不是瓶頸嗎?

    0熱度

    1回答

    我試圖找出如何迭代地圖縮減操作的最終結果,所以我想必須有某種類型的索引放入地圖縮小結果中?

    6熱度

    3回答

    Map Reduce最近似乎引起了很大的關注,我開始看到它在我的一個專注於事件處理管道(iPhone加速度計和GPS數據)的項目中出現。我需要爲這個項目構建很多基礎設施,實際上它超過了與它交互2倍的邏輯代碼。我在EventProcessors(包括輸入和輸出緩衝區,定時等),EventListeners,Aggregators和一個分階段管道中構建的一些組件。 這將我引向我的問題地圖縮減所需的「常

    2熱度

    3回答

    我在尋找一個map/reduce函數來計算設計文檔中的狀態。 您可以在下面看到我當前數據庫中的示例文檔。 { "_id": "0238f1414f2f95a47266ca43709a6591", "_rev": "22-24a741981b4de71f33cc70c7e5744442", "status": "retrieved image urls", "

    1熱度

    2回答

    我的CouchDB數據庫作爲主文檔類型,看起來像: { "_id" : "doc1", "type" : "main_doc", "title" : "the first doc" ... } 有存儲用戶信息的文件另一種類型。我希望用戶能夠將文檔標記爲收藏夾。不同的用戶可以將相同或不同的文檔保存爲收藏夾。我的想法是引進了最喜歡的文檔跟蹤此類似: {

    110熱度

    13回答

    在應用MapReduce的許多實際情況中,最終的算法最終都是幾個MapReduce步驟。 即Map1,Reduce1,Map2,Reduce2等等。 因此,您需要將最後一次減少的輸出作爲下一個地圖的輸入。 中間數據是您(一般情況下)在管道成功完成後不想保留的內容。另外,因爲這個中間數據通常是一些數據結構(如'map'或'set'),所以您不希望在編寫和讀取這些鍵值對時付出太多努力。 在Hadoop

    3熱度

    1回答

    我需要一些有關Hadoop和OpenStreetMap的週末項目的想法。 我可以在EBS卷中訪問帶有OpenStreetMap快照的AWS EC2實例。 OpenStreetMap數據位於PostgreSQL數據庫中。 什麼樣的MapReduce函數可以在OpenStreetMap數據上運行,假設我可以將它們導出爲xml格式,然後放入HDFS中? 換句話說,我現在有一個大腦痙攣,並不能想出什麼樣的

    3熱度

    2回答

    我試圖讓hadoop開發的eclipse插件工作,我正在使用hadoop 0.18.3。我在Eclipse v3.5.2(M20100211-1343)上安裝了舊的MapReduce插件(http://www.alphaworks.ibm.com/tech/mapreducetools),將其複製到/ Applications/eclipse/plugins中,然後重新啓動eclipse,但沒有奏

    1熱度

    1回答

    解釋有點複雜,但我們現在就去。基本上,問題是「如何以有效的方式將問題分解爲子問題」。這裏的「高效」意味着,破碎的子問題儘可能大。基本上,如果我根本不需要解決問題,那將是理想的。但是,因爲工人只能在特定的問題上工作,所以我需要分手。但我想找到儘可能粗糙的方法。 下面是一些僞代碼.. 我們有這樣的問題(對不起這是在Java中,如果你不明白,我會很高興來解釋)。 class Problem {