Apache Hadoop受谷歌MapReduce文件的啓發。 MapReduce的流程可以被看作兩組SIMD(單指令多數據),一個用於Mappers,另一個用於Reducers。減速器通過預定義的「鍵」消耗Mappers的輸出。 MapReduce框架(和Hadoop)的本質是自動分區數據,確定分區和並行作業的數量,並管理分佈式資源。用於非MapReduce算法的Hadoop集羣並行
我有一個通用算法(不一定MapReducable)並行運行。我沒有實現算法本身的MapReduce方式。相反,該算法只是一個單機python/java程序。我想並行運行64個程序副本(假設程序中沒有併發問題)。即我對Hadoop集羣中的計算資源比MapReduce框架更感興趣。無論如何,我可以以這種舊式的方式使用Hadoop集羣嗎?