0
我使用beautifulsoup從網頁上刮取網址。一切都很順利,直到有些網址中有非ascii字符。BeautifulSoup的'href'列表給出了不明確的TypeErrors?
requests.get('http://www.reddit.com')
soup = BeautifulSoup(req.content)
urls = [i.get('href') for i in soup.findAll('a') if
'keyword' in str(i.get('href'))]
列表理解將返回UnicodeError
。
所以我認爲這個列表理解分成兩個部分來代替:
urls = [i.get('href') for i in soup.findAll('a')]
urls = [i.encode('utf-8') for i in urls]
這是當我得到了一個AttributeError
,稱該項目是NoneType
。
我檢查自己的類型:
print [type(i) for i in urls]
這表明所有Unicode類型。它似乎是說,他們是None
和unicode
在同一時間。
我看到在列表中的「#內容」,但是,當我檢查的類型它仍然顯示'unicode'。謝謝,我會試試這個。 – tijko 2013-03-18 09:32:09