2017-04-14 212 views
0

我很難試圖擺脫從某個網頁上抓取的文本中所有額外的HTML標籤,但是,Python中的str.replace()似乎不適用於像<br>=這樣的目標,而其他標籤,如<li></li>將被成功替換。如何在Python中str.replace()<br>或'='?

這是我的代碼。

str(txt).replace('<li>', '') 
     .replace('</li>', '') 
     .replace('<ol>', '') 
     .replace('</ol>', '') 
     .replace('<br>', '') 
     .replace('=', '') 

任何意見將不勝感激。

+0

可能的複製(http://stackoverflow.com/questions/753052/strip-html-from -strings-in-python) –

回答

0

您可以使用BeautifulSoup從頁面獲取文本:

from bs4 import BeautifulSoup 

soup = BeautifulSoup(html_source) 
text = soup.get_text() 

BeautifulSoup解析HTML,並具有獲取文本一個簡單的內置功能。

+0

感謝您的快速響應。我會試一試! – Yuta

-1

嘗試 用: X = STR(TXT)[從字符串在Python地帶HTML]的

''.join(x.split('<li>'),x.split('</li>'),x.split('<ol>'),x.split('</ol>'),x.split('<br>'),x.split('=')) 
相關問題