如何使用python從列表中抓取url

我想抓取列表中的url。基本上我正在刮一個網站，我颳了一個鏈接，我發現特定的鏈接颳了這些鏈接，我搜索另一個特定的鏈接颳了它。我的代碼：如何使用python從列表中抓取url

from bs4 import BeautifulSoup 
import urllib.request 
import re 
r = urllib.request.urlopen('http://i.cantonfair.org.cn/en/ExpExhibitorList.aspx?k=glassware') 
soup = BeautifulSoup(r, "html.parser") 
links = soup.find_all("a", href=re.compile(r"expexhibitorlist\.aspx\?categoryno=[0-9]+")) 
linksfromcategories = ([link["href"] for link in links]) 

string = "http://i.cantonfair.org.cn/en/" 
linksfromcategories = [string + x for x in linksfromcategories] 
subcatlinks = list() 
for link in linksfromcategories: 
    response = urllib.request.urlopen(link) 
    soup2 = BeautifulSoup(response, "html.parser") 
    links2 = soup2.find_all("a", href=re.compile(r"ExpExhibitorList\.aspx\?categoryno=[0-9]+")) 
    linksfromsubcategories = ([link["href"] for link in links2]) 
    subcatlinks.append(linksfromsubcategories) 
responses = urllib.request.urlopen(subcatlinks) 
soup3 = BeautifulSoup(responses, "html.parser") 
print (soup3)

而且我得到的錯誤

Traceback (most recent call last): 
    File "D:\python\phase2.py", line 46, in <module> 
    responses = urllib.request.urlopen(subcatlinks) 
    File "C:\Users\amanp\AppData\Local\Programs\Python\Python35-32\lib\urllib\request.py", line 162, in urlopen 
    return opener.open(url, data, timeout) 
    File "C:\Users\amanp\AppData\Local\Programs\Python\Python35-32\lib\urllib\request.py", line 456, in open 
    req.timeout = timeout 
AttributeError: 'list' object has no attribute 'timeout'

來源

2016-02-25 Aman Kumar

我已經表明了錯誤，檢查它 –

您可以在一個鏈接一次只能傳遞給urllib.request.urlopen，而不是他們的整個列表。

所以你需要另一個循環是這樣的：

for link in subcatlinks: 
    response = urllib.request.urlopen(link) 
    soup3 = BeautifulSoup(response, "html.parser") 
    print(soup3)

來源

2016-02-25 21:04:49

我試過，但它仍然給我的錯誤AttributeError的：「名單」對象有沒有屬性' timeout' –

該數組存儲列表爲[[「link1」，「link2」]，[「anotherlink1」，「anotherlinks2」]]這個問題？ –

是的，就是這個問題，你必須將一個字符串傳遞給'urlopen（）'，而不是一個列表。 –

如何使用python從列表中抓取url

回答

相關問題