1
我使用Nutch的2.3.1Nutch的不爬整個網站
我瓶坯命令抓取網站:
- ./nutch注入../urls/seed.txt
- ./nutch生成-topN 2500
- ./nutch取-all
問題是,Nutch的只抓取第一個網址(在seeds.txt中指定的網址)。數據只是來自第一個URL /頁面的HTML。
由generate命令累積的所有其他URL實際上未被抓取。
我無法讓nutch抓取其他生成的網址......我也無法讓nutch抓取整個網站。 我需要使用哪些選項來抓取整個網站?
有沒有人有任何見解或建議?
非常感謝你的幫助