如何在Python中str.replace（）<br>或'='？

我很難試圖擺脫從某個網頁上抓取的文本中所有額外的HTML標籤，但是，Python中的str.replace()似乎不適用於像<br>和=這樣的目標，而其他標籤，如<li></li>將被成功替換。如何在Python中str.replace（）<br>或'='？

這是我的代碼。

str(txt).replace('<li>', '') 
     .replace('</li>', '') 
     .replace('<ol>', '') 
     .replace('</ol>', '') 
     .replace('<br>', '') 
     .replace('=', '')

任何意見將不勝感激。

來源

2017-04-14 Yuta

可能的複製（http://stackoverflow.com/questions/753052/strip-html-from -strings-in-python） –

您可以使用BeautifulSoup從頁面獲取文本：

from bs4 import BeautifulSoup 

soup = BeautifulSoup(html_source) 
text = soup.get_text()

BeautifulSoup解析HTML，並具有獲取文本一個簡單的內置功能。

來源

2017-04-14 01:35:48 zbw

感謝您的快速響應。我會試一試！ – Yuta

-1

嘗試用： X = STR（TXT）[從字符串在Python地帶HTML]的

''.join(x.split('<li>'),x.split('</li>'),x.split('<ol>'),x.split('</ol>'),x.split('<br>'),x.split('='))

來源

2017-04-14 05:16:55

如何在Python中str.replace（）<br>或'='？

回答

相關問題