如何在美麗的湯4中處理 和 ？

我正在嘗試使用python和Beautiful Soup 4來替換某個html中的每個分隔標記並換行。如何在美麗的湯4中處理 和 ？

該文件有 ， 和它標籤，但由於湯怎麼處理漂亮的標籤，只要找到一個 ，它會刪除它，它認爲在未來之間的一切。

有沒有辦法解決這個問題？

2014-12-18 avyfain

嘗試使用HTMLParserTreeBuilder的生成器類：

from bs4 import BeautifulSoup 
from bs4.builder import HTMLParserTreeBuilder 

html_doc = """ 
<html>this is a test<br> ...between a start and end br... </br> a blank br: <br/> something else 
""" 

soup = BeautifulSoup(html_doc, builder=HTMLParserTreeBuilder()) 
print soup.prettify()

比較輸出沒有給出builder=參數時。

您可以確定哪些建設者BS4與使用：

print type(soup.builder)

默認情況下它似乎BS4選擇基於lxml的建設者。

來源

2014-12-18 23:45:03 ErikR

如何在美麗的湯4中處理<br></br>和<br/>？

回答

如何在美麗的湯4中處理<br></br>和<br/>？

回答

相關問題