2011-12-12 64 views

回答

9

嘗試crawler4j。您只需實現一個簡單的界面,該界面控制要訪問哪些URL以及如何處理每個已爬網頁。

+0

我在使用此爬網程序(「site沒有迴應「,而在瀏覽器中打開罰款等) – ed22

5

在java我認爲它歸結爲NutchHeritrix。您應該指定您的需求以獲得更好的答案。