2016-01-23 58 views
0

我實現一個抓取工具,這樣做:短途WebCrawler的API不正確對待相對URL

repeat 
Visit each page and get all links that have not been visited. 
until no new links 

它爬行的頁面是

https://www.mercadoribeirao.com.br

我得到的所有鏈接如:

<a href="produtos.php?id_sub=104&amp;fruta-nacional" class="new_sub_menu"> 
          Fruta Nacional      </a> 

在第一頁中它正確地得到鏈接:

https://www.mercadoribeirao.com.br/produtos.php?id_sub=253&espumante-nacional 
https://www.mercadoribeirao.com.br/produtos.php?id_sub=245&frances 
https://www.mercadoribeirao.com.br/produtos.php?id_sub=246&italiano 
https://www.mercadoribeirao.com.br/produtos.php?id_sub=248&nacional 
https://www.mercadoribeirao.com.br/produtos.php?id_sub=414&outros 

但是,當訪問子頁面的URL是拼接錯誤:

https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=197&salgadinho-e-snack 
https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=198&sardinha,-atum-e-cia 
https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=199&sopas-e-cremes 

也許是因爲短途試圖自動完成相對鏈接來串聯鏈接URL的結束,而不是在底座上頁。

由於某些原因,創建的這些新鏈接是正確的,然後總是有新的鏈接被訪問,並且這種情況無限期地發生,並且流程永遠不會結束。

有沒有解決這個問題的辦法?

回答