2014-09-24 47 views
0

我的nutch版本是2.2.1,它運行良好幾天,但現在它不會抓取任何任何給出如下錯誤。Nutch錯誤「達到的限制,跳過進一步的鏈接」

已達到上限,跳過進一步反向鏈接爲de.ard.www:HTTP/
已達到上限,跳過進一步反向鏈接爲de.rbb-online.mediathek:HTTP/

已達到上限,跳躍的德進一步反向鏈接.rbb-online.www:http/

如何擺脫它?

回答

1

這不是一個錯誤。其實這意味着發現比默認設置(db.max.inlinks)更多的鏈接,只有前N個鏈接將被存儲,其餘的將被丟棄。默認的db.max.inlinks設置爲10000.

恕我直言如果你想抓取更多的outlinks頁面。您應該增加db.max.outlinks.per.page設置。在默認情況下,它每頁設置100。