2011-11-03 48 views
2

我想解析在xml.etree.ElementTree模塊中使用iterparse的Medline xml文檔。除了一些文本包含非ascii字符之外,所有操作都很好。我沒有看到使用findtext處理unicode的方法。有什麼建議麼?xml.etree.ElementTree和unicode findtext

回答

2

你有沒有試着用UTF8編碼FLAH打開文件:

fd = open('some.xml', mode='r', encoding='utf-8') 
xml.etree.ElementTree.iterparse(fd) 

或者使用解碼:

fd = open('some.xml', mode='r') 
sio = StringIO(fd.read().decode("utf-8")) 
xml.etree.ElementTree.iterparse(sio) 
+0

我認爲這應該工作,但我仍然得到錯誤。下一步是驗證編碼是否確實是UTF-8 – seandavi

+0

第二個解決方案可以正常工作 –