2
我想知道如何使nutch不僅抓取我指定的域,而且抓取我指定的域內的目錄路徑。我知道,你可以配置在正則表達式,urlfilter.txt此信息nutch爬行路徑
我想知道如何使nutch不僅抓取我指定的域,而且抓取我指定的域內的目錄路徑。我知道,你可以配置在正則表達式,urlfilter.txt此信息nutch爬行路徑
這應該只抓取你想要的域名/路徑:
+.*www\.domain\.com/yourpath/.*
#skip everything else
-.*