2012-07-25 151 views
1

我已經在java中編寫了一個用於處理大量數據的代碼。我想將它分發到多臺機器上以處理部分數據並更快地完成處理。我之前從未從事過分佈式計算。有沒有工具可以完成這項工作?謝謝。如何在多臺機器上通過java分發程序?

+3

聽起來像你正在尋找一個[hadoop](http://hadoop.apache.org/)集羣 – Joost 2012-07-25 08:43:43

+0

我會確保你正在儘可能有效地處理數據,並且IO不是瓶頸。多臺機器提供更多的CPU和內存,但可能會使IO瓶頸變得更糟。 – 2012-07-25 09:25:07

+0

@PeterLawrey我相信IO在我的情況下不是問題。這是需要很多時間的處理。這就是爲什麼我想分發它。謝謝 – 2012-07-25 09:33:49

回答

1

Gridgain工作得很好。 Hadoop是一個偉大的,但需要更多的開發。 Hazelcast coulb是一個很好的局外人

我也可以引用其他人,但是如果不知道涉及的數據類型和處理類型,很難回答你的問題。進程I/O密集型還是CPU綁定?

其中一個問題是「數據集有多大?」。

+0

謝謝。我剛剛閱讀了Hadoop,試圖找到如何指導。我需要找到每對數據集之間的交集。因此,即使是相對較大的數據也需要很長時間。 – 2012-07-25 09:04:44

+1

處理是CPU綁定的。 – 2012-07-25 09:32:25

+0

自3年以來,我們在生產中使用Gridgain,並且我們發現它非常靈活且易於使用。這是CPU密集型任務 – Grooveek 2012-07-25 09:43:07

0

好像你想要做一個map-reduce algorithem。

Hadoop是一個開源項目,提供了一個框架來做到這一點。

相關問題