0
我正在使用Nutch抓取種子文件中指定的深度爲100和topN 10,000的URL列表,以確保完全抓取。此外,我試圖忽略在他們的路徑中使用正則表達式重複字符串urlsil-urlfilter http://rubular.com/r/oSkwqGHrri有無論如何記錄在Nutch crawl中被忽略的網址列表嗎?
但是,我很想知道哪些網址在爬網過程中被忽略。無論如何,我可以記錄Nutch在爬行時「忽略」的網址列表嗎?
正是我想要的。謝謝! – sunskin 2013-03-25 15:38:19