我必須處理大量的數據。我希望使用分佈式計算(可擴展)來處理它。 我從apache Solr.On獲取數據通過一個特定的輸入,我從apache solr獲取一個巨大的數據集。對於這個數據集中的每個記錄,我會將主鍵傳遞給REST api以獲取一些將附加到記錄的信息然後每條記錄都會進行一些更新。最終巨集合中的每個更新對象將被寫爲單獨的xml文件到一個文件夾中。用於處理來自Apache solr的數據的Hadoop
適用於這種特殊情況的Hadoop?。我已經看到了在Hadoop中的MapReduce的單詞計數樣品documentation.I試圖在該地圖的地圖發出減少2個節點將是一個類似的方式去思考我的處境
Node1 - Map<InputIdToSolr1,Set<RecordsFromSolr1to500>>
Node2 - Map<InputIdToSolr1,Set<RecordsFromSolr500to1000>>
然後這個結果將通過hadoop中的reduce函數進行組合。不同於wordcount,我的節點在每個節點的map中只有一個元素。我不確定使用hadoop是否有意義。 什麼是我可以用來擴展記錄處理的其他選項/開源java項目。我從春天就看到了Terracotta,但它似乎是一個商業應用程序。
我看不出爲什麼它不起作用的理由。我正在研究一個類似的場景,並從REST基礎服務中獲取結果並將其傳遞給Hadoop – allthenutsandbolts 2012-04-23 18:23:34
我可以說它不起作用。我只是在開始之前分析一切。可以告訴我,如果我在這種情況下使用hadoop的方法是正確/不是 – aruns 2012-04-24 02:56:12