2010-11-27 97 views
2

我有一些疑問,在Nutch的 而我用維基問我來編輯crawl-urlfilter.txt如何讓Nutch的爬蟲抓取

+^http://([a-z0-9]*\.)*apache.org/ 

,我要求創建一個URL文件夾和URL的列表。 ..

我需要在crawl-urlfilter.txt和URL列表中創建的所有鏈接...

回答

0

是,也不是。

爬網urlfiler.txt充當過濾器,在apache.org所以只有網址,將永遠不會在你的榜樣

的URL文件夾給「種子」的URL地址在哪裏讓爬蟲抓取開始。 因此,如果您希望抓取工具留在一組網站中,您需要確保它們與過濾器有正面匹配,否則會抓取整個網絡。這可能意味着您必須將網站列表放入過濾器