我使用lxml
解析HTML:lxml是否在上下文中解析HTML?
>>> from lxml.html import fromstring, tostring
它解析在某些情況下,正確的尾隨空白:
>>> html = """<div>some <i>text</i> </div>"""
>>> html == tostring(fromstring(html))
True
但似乎遇到未知標記(如下面的blah
標籤時打破)。
>>> html = """<div>some <blah>text</blah> </div>"""
>>> html == tostring(fromstring(html))
False
我該如何解決它以包含所有標籤的尾部空白?
不好意思,但這與OP想要的是相反的:他想保留空白。問題是'HTMLParser'(可以解析格式不正確的html)在''之後拋出空白,可能是因爲某些html特定的清理。 – Steven