2015-07-20 80 views
0

有沒有辦法配置lxml不去除HTML實體?即如何使用lxml解析HTML時保留HTML實體?

from lxml import etree 

parser = etree.XMLParser(recover=True, remove_blank_text=True, remove_comments=True) 

html = '<html><body><p>&agrave;</body><p></html>' 
parsed_tree = etree.XML(html, parser)) 
etree.tostring(parsed_tree) # returns '<html><body><p/><p/></body></html>' 

我想保持在HTML中&agrave;,而不是把它剝離出來。

回答

0

我解決了它切換etree.XMLParseretree.HTMLParseretree.XMLetree.HTML