2012-04-16 79 views
0

我正在開發一個Java爬蟲程序。我正在尋找一個好項目來開發基於它的爬蟲。然而,實際上有超過幾百個以Java編寫的抓取工具。我正在尋找的,是一個相當簡單履帶有:學習多線程Java爬蟲的好開始

  • 多線程功能
  • 性能好
  • 實現了基於最新的Java構建和新技術
  • 一良好的文檔
  • 沒有很多不必要的功能(膨脹)
  • 能夠很容易地集成到我的項目牛逼

回答

2

我在找什麼,是一個相當簡單的爬行......

你不是真的要發現,沒有什麼簡單的有關履帶!凱斯和點,沒有什麼簡單的有關具有這些特徵(尤其是最後一顆子彈點):

  • 多線程功能
  • 性能好
  • 實現了基於最新的Java構建和新技術
  • 一個好的文檔
  • 不是很多非必要的功能(醃)
  • 能夠很容易地集成到我的項目

Nutch的是一個全功能的Java抓取工具,滿足您的大多數要求:http://nutch.apache.org/

此外,我建議你檢查出這個問題:https://stackoverflow.com/questions/2495289/what-is-a-good-java-web-crawler-library

+0

謝謝。我會研究這一點。 – 2012-04-17 21:02:24