如何僅使用Nutch索引某些網址的頁面？

我希望nutch抓取abc.com，但我只想索引car.abc.com。 car.abc.com鏈接可以在abc.com的任何級別。因此，基本上，我希望nutch通常保持抓取abc.com，但只索引以car.abc.com開頭的頁面。例如car.abc.com/toyota ... car.abc.com/honda ...如何僅使用Nutch索引某些網址的頁面？

我將regex-urlfilter.txt設置爲僅包含car.abc.com，並運行命令「generate crawl/crawldb crawl /段「，但它只是說」發生器：選擇0個記錄進行讀取，退出...「。我想car.abc.com鏈接只存在於幾個層面。

如何做到這一點？謝謝。

來源

2010-07-15 savannah_beckett

一種方法是使用mergedb命令的-filter開關。該命令將抓取數據庫作爲輸入，並創建一個新的抓取數據庫，其中一些URL被過濾。只需使用該過濾的爬網數據庫進行索引。

唯一的缺點是，我還沒有找到一種方法讓mergedb命令使用另一個文件，而不是regex-urlfilter.txt，它是生成器使用的文件。您將不得不維護兩個文件，例如regex-urlfilter.txt：一個用於生成器的文件，其中爲abc.com，另一個用於mergedb命令，該文件不包括不像car.abc.com的網址。但是由於兩個命令都嘗試加載同一個文件，因此在調用其中一個命令之前，必須將相應的文件重命名爲regex-urlfilter.txt。

如果有人知道如何配置mergedb命令來使用其他文件，我很樂意聽到它！

來源

2010-07-15 17:09:23

如何僅使用Nutch索引某些網址的頁面？

回答

相關問題