2014-10-20 60 views
1

我在我的urls/seed文件中有兩個網址。我的抓取工具在開始抓取前花費太多時間。我已檢索的數據大約爲220 GB。任何想法爲什麼nutch的行爲是這樣的apache nutch在生成階段需要很長的時間

+0

您可以限制網址的使用-depth抓取的數量和-topN參數 – 2014-11-07 12:36:11

回答

1

在獲取作業之前,生成作業在Nutch中執行。在生成作業中,Nutch將選擇CrawlDB中所有URL中得分最高的topN URL,以便獲取。因此,抓取工具在抓取之前需要很長時間的原因是您設置的topN與系統容量相比過高,並且抓取數據庫中的URL數量很大(選擇過程需要一定的時間)。

希望這有助於

李全安待辦事項

+0

如果我選擇TOPN一個小數目,有沒有什麼缺點? – Shafiq 2014-12-09 07:45:54

+0

如果您設置了topN,則您在每次抓取時獲得的網址數量也很小。 – 2014-12-09 09:59:02

+0

有沒有辦法做無限的topN,因爲我不知道數據庫中究竟有多少網址。或者什麼應該是本地語言搜索引擎的配置爬行,但不要在啓動(代) – Shafiq 2014-12-11 04:55:22