短途WebCrawler的API不正確對待相對URL

我實現一個抓取工具，這樣做：短途WebCrawler的API不正確對待相對URL

repeat 
Visit each page and get all links that have not been visited. 
until no new links

它爬行的頁面是

https://www.mercadoribeirao.com.br

我得到的所有鏈接如：

<a href="produtos.php?id_sub=104&amp;fruta-nacional" class="new_sub_menu"> 
          Fruta Nacional      </a>

在第一頁中它正確地得到鏈接：

https://www.mercadoribeirao.com.br/produtos.php?id_sub=253&espumante-nacional 
https://www.mercadoribeirao.com.br/produtos.php?id_sub=245&frances 
https://www.mercadoribeirao.com.br/produtos.php?id_sub=246&italiano 
https://www.mercadoribeirao.com.br/produtos.php?id_sub=248&nacional 
https://www.mercadoribeirao.com.br/produtos.php?id_sub=414&outros

但是，當訪問子頁面的URL是拼接錯誤：

https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=197&salgadinho-e-snack 
https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=198&sardinha,-atum-e-cia 
https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=199&sopas-e-cremes

也許是因爲短途試圖自動完成相對鏈接來串聯鏈接URL的結束，而不是在底座上頁。

由於某些原因，創建的這些新鏈接是正確的，然後總是有新的鏈接被訪問，並且這種情況無限期地發生，並且流程永遠不會結束。

有沒有解決這個問題的辦法？

來源

2016-01-23 alexpfx