2013-03-11 29 views
0

我試圖用Rhadoop(R和hadoop之間的關聯)來計算一些東西。Rhadoop的多核計算

當我使用Hadoop-1.0.4中的嵌入式示例對我的集羣進行基準測試時,它看起來運行良好。 (我的意思是所有從屬節點的核心工作,雖然CPU使用率在50%到100%之間波動)

但是,當我申請一個Rhadoop的例子時,情況並非如此。 (每個從節點只有一個內核被激活)

是否有必須在Rhadoop中設置的配置?(就像我對hadoop的配置文件(如core-site.xml)所做的那樣)

謝謝

+3

請讓您的情況具有可重複性,即向我們提供模擬您的情況所需的數據和代碼。有關如何執行此操作的更多提示,請參閱http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example。 – 2013-03-11 08:50:45

+0

對不起,我沒有你要求的許可。我會請他(我的同事)給我他的代碼並獲得上傳的權限。感謝您的評論。 – 2013-03-12 04:41:40

回答

0

您可能是在談論rmr2,它是RHadoop的一部分。 rmr2沒有特定的配置。 help(rmr.options)將顯示所有配置選項。地圖任務和地圖時隙的數量決定了地圖階段的並行度。這聽起來像你有足夠的插槽。所以地圖任務的數量可能不足。它可能取決於輸入的大小和其他屬性。您可以將其他參數傳遞給mapreduce backend.parameters = list(hadoop = list(D = 'mapred.map.tasks')),但hadoop不會逐字遵守此設置,只是將其作爲提示。 backend.parameters參數已被棄用,但當它被移除時,將爲此特定目標提供一些替代機制。如果問題處於縮減階段,那麼這組鍵的基數也很重要(它設置了並行度的上限)。我同意保羅的觀點,如果你提供了一個可重複的例子,我的答案將包含更少的猜測。 RHadoop有一個專門的論壇,其中開發者和用戶都是活躍的https://groups.google.com/forum/?fromgroups=#!forum/rhadoop

+0

謝謝,我將盡你所寫,並儘快提供結果。 – 2013-03-12 04:37:35