我使用nutch 1.4抓取網站。爲了演示目的,我開始使用jabong.com進行抓取,但我發現nutch無法抓取站點中的所有鏈接。Nutch未能抓取特定網站
參觀後http://www.jabong.com/women/clothing/womens-suits-sets/ 它不會獲取本網站中映射到圖像上的鏈接。
我將nutch配置爲: - conf/nuth-default.xml --->添加了代理名稱 conf/regex-urlfilter.txt --->而不是+。 ,我寫了+^http://([a-z0-9] *。)* jabong.com/ seed.txt包含http://www.jabong.com/
有人可以告訴我可能是什麼問題,它沒有獲取所有鏈接?