apache nutch在生成階段需要很長的時間

我在我的urls/seed文件中有兩個網址。我的抓取工具在開始抓取前花費太多時間。我已檢索的數據大約爲220 GB。任何想法爲什麼nutch的行爲是這樣的apache nutch在生成階段需要很長的時間

2014-10-20 Shafiq

您可以限制網址的使用-depth抓取的數量和-topN參數 – 2014-11-07 12:36:11

在獲取作業之前，生成作業在Nutch中執行。在生成作業中，Nutch將選擇CrawlDB中所有URL中得分最高的topN URL，以便獲取。因此，抓取工具在抓取之前需要很長時間的原因是您設置的topN與系統容量相比過高，並且抓取數據庫中的URL數量很大（選擇過程需要一定的時間）。

希望這有助於

李全安待辦事項

2014-12-08 14:20:21

如果我選擇TOPN一個小數目，有沒有什麼缺點？ – Shafiq 2014-12-09 07:45:54

如果您設置了topN，則您在每次抓取時獲得的網址數量也很小。 – 2014-12-09 09:59:02

有沒有辦法做無限的topN，因爲我不知道數據庫中究竟有多少網址。或者什麼應該是本地語言搜索引擎的配置爬行，但不要在啓動（代） – Shafiq 2014-12-11 04:55:22

回答