Hadoop永遠在EMR上進行分析並對EMR進行分析

我在S3上運行了~500個文檔的示例hadoop作業，並且在本地運行時需要< 15分鐘才能完成。但是，當我嘗試在EMR上執行相同的工作時，需要2個多小時，但仍未完成還原步驟，因此我終止了它。在EMR上，爲什麼MapReduce工作需要這麼長時間，會有一個特別的原因嗎？Hadoop永遠在EMR上進行分析並對EMR進行分析

另外，沿着同樣的路線，什麼是配置EMR以查看瓶頸位置的最佳方法？我似乎無法從reducer獲取日誌文件，直到他們完成，但他們正在花太長時間才能完成。

來源

2013-05-01 Jin

您可以命名一個存儲桶來放置EMR日誌。它也會讓你在殺死集羣后檢查它們。 – Guy 2013-05-03 10:58:28

從我使用AWS EMR的經驗中，我發現內存設置（多少您分配以映射或減少任務），爲任務分配的總RAM以及堆大小配置在性能方面發揮重要作用。下面的鏈接包含一些信息，Google搜索應該會顯示其他信息。

http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/TaskConfiguration.html

來源

2013-08-07 18:46:57 Saul

Hadoop永遠在EMR上進行分析並對EMR進行分析

回答

相關問題