2016-03-01 48 views
1

我使用Nutch的2.3.1Nutch的不爬整個網站

我瓶坯命令抓取網站:

  • ./nutch注入../urls/seed.txt
  • ./nutch生成-topN 2500
  • ./nutch取-all

問題是,Nutch的只抓取第一個網址(在seeds.txt中指定的網址)。數據只是來自第一個URL /頁面的HTML。

由generate命令累積的所有其他URL實際上未被抓取。

我無法讓nutch抓取其他生成的網址......我也無法讓nutch抓取整個網站。 我需要使用哪些選項來抓取整個網站?

有沒有人有任何見解或建議?

非常感謝你的幫助

回答

1

在這種Nutch的抓取只有一個指定的URL,請Nutch的過濾器(CONF /正則表達式,urlfilter.txt)的情況。要抓取種子中的所有URL,regex-urlfilter.txt的內容應如下所示。

# accept all URLs 
+. 

查看詳情這裏:http://wiki.apache.org/nutch/NutchTutorial

希望這有助於

李全安待辦事項