2012-02-07 69 views

回答

0

如果您知道內部網的所有網址,請編寫一個robots.txt(或與所有網址相同的網頁並指向該網址)。

如果您不這樣做,那麼您將永遠無法安全地抓取所有網址,因爲您無法在抓取後對其進行驗證。

在最後一種情況下,最好的機會是在最大深度進行爬網。

Regards