In [1]: from lxml import etree
我有一個HTML文檔丟失的文檔類型:LXML,當系列化
In [2]: root = etree.fromstring(u'''<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN">\n<HTML></HTML>''', etree.HTMLParser())
它的DOCTYPE被正確解析:
In [3]: root.getroottree().docinfo.doctype
Out[3]: u'<!DOCTYPE html PUBLIC "-//IETF//DTD HTML//EN">'
但是序列化時,我失去它:
In [4]: etree.tostring(root.getroottree(), method='html')
Out[4]: '<html></html>'
我該怎麼做才能得到那個doctyp e序列化?
Debian GNU/Linux,Sid。 Python 2.6.6。 lxml 2.2.8-2。
什麼版本的lxml? – bosmacs 2010-10-12 16:25:01
@bosmacs:編輯。 – liori 2010-10-12 16:30:46