2010-07-01 78 views
1

我現在正在使用BeautifulSoup刮一些網站,但是我有一些特定字符的問題,UnicodeDammit內的代碼似乎表明這(再)是一些微軟發明的。逃離…與BeautifulSoup

我使用BeautifulSoup的最新版本(3.0.8.1),因爲我仍在使用的python2.5

下面的代碼說明我的問題:

from BeautifulSoup import BeautifulSoup 
soup = BeautifulSoup('...Baby One More Time (Digital Deluxe Version…') 
print soup 

'...Baby One More Time (Digital Deluxe Version…' 

正如你所看到的問題是最後一個'&'(& hellip)字符(您的瀏覽器可能正確地轉義了)。顯然這不是我所感興趣的。

這將是很高興有這個字符unicode表示或什麼的。即使單純地忽視它也能解決我的特殊問題。

我如何用BeautifulSoup做到這一點?

回答

1

定義找到解決自己:

soup = BeautifulSoup('...Baby One More Time (Digital Deluxe Version…', convertEntities="html")