0
我是一個新手,試圖用Nutch 1.2來獲取一個網站。我只使用Linux控制檯與Nutch一起工作,因爲我不需要其他任何東西。我的命令看起來像這樣如何使用nutch抓取忽略JavaScript和註釋?
bin/nutch crawl urls -dir crawled -depth 3
其中文件夾
網址是我有我的鏈接,我確實得到結果到文件夾
爬行。 當我想看到我輸入的結果時:
bin/nutch readseg -dump crawled/segments/20110401113805 /home/nutch/dumpfiles
這很有效,但我得到了很多斷開的鏈接。 現在,我做
不是想要
Nutch要遵循JavaScript鏈接,只有定期的鏈接,任何人都可以給我一個提示/如何做到這一點的幫助? 我試着編輯
conf/crawl-urlfilter.txt而沒有結果。我可能輸入了錯誤的命令!
任何幫助表示讚賞!