2011-08-22 74 views
2

我想知道如何使nutch不僅抓取我指定的域,而且抓取我指定的域內的目錄路徑。我知道,你可以配置在正則表達式,urlfilter.txt此信息nutch爬行路徑

回答

2

這應該只抓取你想要的域名/路徑:

+.*www\.domain\.com/yourpath/.* 
#skip everything else 
-.*