Rhadoop的多核計算

我試圖用Rhadoop（R和hadoop之間的關聯）來計算一些東西。Rhadoop的多核計算

當我使用Hadoop-1.0.4中的嵌入式示例對我的集羣進行基準測試時，它看起來運行良好。（我的意思是所有從屬節點的核心工作，雖然CPU使用率在50％到100％之間波動）

但是，當我申請一個Rhadoop的例子時，情況並非如此。（每個從節點只有一個內核被激活）

是否有必須在Rhadoop中設置的配置？（就像我對hadoop的配置文件（如core-site.xml）所做的那樣）

謝謝

2013-03-11 Hyunwoong Ji

請讓您的情況具有可重複性，即向我們提供模擬您的情況所需的數據和代碼。有關如何執行此操作的更多提示，請參閱http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example。 – 2013-03-11 08:50:45

對不起，我沒有你要求的許可。我會請他（我的同事）給我他的代碼並獲得上傳的權限。感謝您的評論。 – 2013-03-12 04:41:40

您可能是在談論rmr2，它是RHadoop的一部分。 rmr2沒有特定的配置。 help(rmr.options)將顯示所有配置選項。地圖任務和地圖時隙的數量決定了地圖階段的並行度。這聽起來像你有足夠的插槽。所以地圖任務的數量可能不足。它可能取決於輸入的大小和其他屬性。您可以將其他參數傳遞給mapreduce backend.parameters = list(hadoop = list(D = 'mapred.map.tasks'))，但hadoop不會逐字遵守此設置，只是將其作爲提示。 backend.parameters參數已被棄用，但當它被移除時，將爲此特定目標提供一些替代機制。如果問題處於縮減階段，那麼這組鍵的基數也很重要（它設置了並行度的上限）。我同意保羅的觀點，如果你提供了一個可重複的例子，我的答案將包含更少的猜測。 RHadoop有一個專門的論壇，其中開發者和用戶都是活躍的https://groups.google.com/forum/?fromgroups=#!forum/rhadoop

來源

2013-03-11 16:07:32 piccolbo

謝謝，我將盡你所寫，並儘快提供結果。 – 2013-03-12 04:37:35

Rhadoop的多核計算

回答

相關問題