2011-04-01 49 views
0

我是一個新手,試圖用Nutch 1.2來獲取一個網站。我只使用Linux控制檯與Nutch一起工作,因爲我不需要其他任何東西。我的命令看起來像這樣如何使用nutch抓取忽略JavaScript和註釋?

 
bin/nutch crawl urls -dir crawled -depth 3 
其中文件夾 網址是我有我的鏈接,我確實得到結果到文件夾 爬行。 當我想看到我輸入的結果時:
bin/nutch readseg -dump crawled/segments/20110401113805 /home/nutch/dumpfiles
這很有效,但我得到了很多斷開的鏈接。 現在,我做 不是想要 Nutch要遵循JavaScript鏈接,只有定期的鏈接,任何人都可以給我一個提示/如何做到這一點的幫助? 我試着編輯 conf/crawl-urlfilter.txt而沒有結果。我可能輸入了錯誤的命令!

任何幫助表示讚賞!

回答

0

請注意,有兩個不同的過濾器文件,一個用於一站式爬網命令,另一個用於逐步命令。 其餘的只是建立一個正則表達式,它會匹配你想跳過的url,在你之前加上minus,然後你就完成了。