0
有沒有辦法配置lxml不去除HTML實體?即如何使用lxml解析HTML時保留HTML實體?
from lxml import etree
parser = etree.XMLParser(recover=True, remove_blank_text=True, remove_comments=True)
html = '<html><body><p>à</body><p></html>'
parsed_tree = etree.XML(html, parser))
etree.tostring(parsed_tree) # returns '<html><body><p/><p/></body></html>'
我想保持在HTML中à
,而不是把它剝離出來。