Q

使用nutch索引所有內部網

2012-02-07 69 views 0 likes

0

我使用Nutch，我想索引一個內部網，但是如何確保內部網上的所有內容都將被索引？使用nutch索引所有內部網

謝謝。

2012-02-07 bobosh

A

回答

0

如果您知道內部網的所有網址，請編寫一個robots.txt（或與所有網址相同的網頁並指向該網址）。

如果您不這樣做，那麼您將永遠無法安全地抓取所有網址，因爲您無法在抓取後對其進行驗證。

在最後一種情況下，最好的機會是在最大深度進行爬網。

Regards

2012-02-19 03:57:04

相關問題