2017-03-03 87 views
0

我回到了Python中的一箇舊項目,但我似乎忘記了我是如何設法提取數據的,如果有人能指出我正確的方向和文檔來實現這一點,它將不勝感激。Python URL結束字符串計數器

我實現了一個網絡爬蟲,通過掃描我的html代碼從HTML頁面中提取信息。我使用的BeautifulSoup和urllib2庫掃描mywebsite.com/product=1的URL。

但是我想讓mywebsite.com增加到最多10.我究竟可以提取,讀取和替換網址的末尾並將其替換?我注意到其他人實現了urlparse庫來替換域主,但它與我的方法不一樣。

> mywebsite.com/product=1 
> mywebsite.com/product=2 
> mywebsite.com/product=3 
> mywebsite.com/product=4 .. 
> mywebsite.com/product=10 

謝謝!

回答

2

你的意思是循環和爬行10次?

for i in range(1, 11): 
    url = r"mywebsite.com/product=" + str(i) 
    url = r"mywebsite.com/product={}".format(i) # or use str.format 
    print(url) 

    # crawl and extract