Nutch的不爬整個網站

我瓶坯命令抓取網站：

問題是，Nutch的只抓取第一個網址（在seeds.txt中指定的網址）。數據只是來自第一個URL /頁面的HTML。

由generate命令累積的所有其他URL實際上未被抓取。

我無法讓nutch抓取其他生成的網址......我也無法讓nutch抓取整個網站。 我需要使用哪些選項來抓取整個網站？

有沒有人有任何見解或建議？

非常感謝你的幫助

2016-03-01 tt2244

在這種Nutch的抓取只有一個指定的URL，請Nutch的過濾器（CONF /正則表達式，urlfilter.txt）的情況。要抓取種子中的所有URL，regex-urlfilter.txt的內容應如下所示。

# accept all URLs 
+.

希望這有助於

李全安待辦事項

2016-03-10 19:07:14

回答