如何使用nutch抓取忽略JavaScript和註釋？

我是一個新手，試圖用Nutch 1.2來獲取一個網站。我只使用Linux控制檯與Nutch一起工作，因爲我不需要其他任何東西。我的命令看起來像這樣如何使用nutch抓取忽略JavaScript和註釋？

 
bin/nutch crawl urls -dir crawled -depth 3

其中文件夾網址是我有我的鏈接，我確實得到結果到文件夾爬行。當我想看到我輸入的結果時： bin/nutch readseg -dump crawled/segments/20110401113805 /home/nutch/dumpfiles 這很有效，但我得到了很多斷開的鏈接。現在，我做不是想要 Nutch要遵循JavaScript鏈接，只有定期的鏈接，任何人都可以給我一個提示/如何做到這一點的幫助？我試着編輯 conf/crawl-urlfilter.txt而沒有結果。我可能輸入了錯誤的命令！

任何幫助表示讚賞！

來源

2011-04-01 dirbacke

請注意，有兩個不同的過濾器文件，一個用於一站式爬網命令，另一個用於逐步命令。其餘的只是建立一個正則表達式，它會匹配你想跳過的url，在你之前加上minus，然後你就完成了。

來源

2011-04-07 14:23:35 millebii

如何使用nutch抓取忽略JavaScript和註釋？

回答

相關問題