2010-07-15 72 views
1

我希望nutch抓取abc.com,但我只想索引car.abc.com。 car.abc.com鏈接可以在abc.com的任何級別。因此,基本上,我希望nutch通常保持抓取abc.com,但只索引以car.abc.com開頭的頁面。例如car.abc.com/toyota ... car.abc.com/honda ...如何僅使用Nutch索引某些網址的頁面?

我將regex-urlfilter.txt設置爲僅包含car.abc.com,並運行命令「generate crawl/crawldb crawl /段「,但它只是說」發生器:選擇0個記錄進行讀取,退出...「。我想car.abc.com鏈接只存在於幾個層面。

如何做到這一點? 謝謝。

回答

1

一種方法是使用mergedb命令的-filter開關。該命令將抓取數據庫作爲輸入,並創建一個新的抓取數據庫,其中一些URL被過濾。只需使用該過濾的爬網數據庫進行索引。

唯一的缺點是,我還沒有找到一種方法讓mergedb命令使用另一個文件,而不是regex-urlfilter.txt,它是生成器使用的文件。您將不得不維護兩個文件,例如regex-urlfilter.txt:一個用於生成器的文件,其中爲abc.com,另一個用於mergedb命令,該文件不包括不像car.abc.com的網址。但是由於兩個命令都嘗試加載同一個文件,因此在調用其中一個命令之前,必須將相應的文件重命名爲regex-urlfilter.txt。

如果有人知道如何配置mergedb命令來使用其他文件,我很樂意聽到它!

相關問題