0
我實現一個抓取工具,這樣做:短途WebCrawler的API不正確對待相對URL
repeat
Visit each page and get all links that have not been visited.
until no new links
它爬行的頁面是
https://www.mercadoribeirao.com.br
我得到的所有鏈接如:
<a href="produtos.php?id_sub=104&fruta-nacional" class="new_sub_menu">
Fruta Nacional </a>
在第一頁中它正確地得到鏈接:
https://www.mercadoribeirao.com.br/produtos.php?id_sub=253&espumante-nacional
https://www.mercadoribeirao.com.br/produtos.php?id_sub=245&frances
https://www.mercadoribeirao.com.br/produtos.php?id_sub=246&italiano
https://www.mercadoribeirao.com.br/produtos.php?id_sub=248&nacional
https://www.mercadoribeirao.com.br/produtos.php?id_sub=414&outros
但是,當訪問子頁面的URL是拼接錯誤:
https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=197&salgadinho-e-snack
https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=198&sardinha,-atum-e-cia
https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=199&sopas-e-cremes
也許是因爲短途試圖自動完成相對鏈接來串聯鏈接URL的結束,而不是在底座上頁。
由於某些原因,創建的這些新鏈接是正確的,然後總是有新的鏈接被訪問,並且這種情況無限期地發生,並且流程永遠不會結束。
有沒有解決這個問題的辦法?