2012-05-09 34 views
0

我有一個URL列表,我想下載它們以創建一個webtrec格式的索引。我找到了一個有用的框架,稱爲MapReduce(Apache Hadoop),但我想知道是否有一個java的實現我想做的事情。或者可能是一個很好的例子。在mapreduce中有一個索引器的Java實現嗎?

謝謝!

+0

[簡單的Java的Map/Reduce框架]的可能重複(http://stackoverflow.com/questions/5260212/simple-java-map-reduce-framework) – ant

+0

你可能要考慮Nutch的 - HTTP:// nutch.apache.org/ –

回答

1

MapReduce模式是多個步驟中可並行,CPU限制計算的模式。下載和抓取網頁是一個I/O綁定操作。因此,你應該區分兩種操作。

因此,當性能非常重要時,您應該首先使用類似隊列和異步I/O的內容來下載網站。第二步,您可以使用MapReduce來構建實際的索引。

Hadoop是一種可能性,但如果您不是大規模定位,則可以使用Fork/Join和akka等框架。

+0

感謝您的回答。 – synack