2014-02-25 35 views
1

以下代碼解析字符串。如何解析文件?

import lxml.html 

doc = lxml.html.document_fromstring("""<html> 
<body> 
    <span class="simple_text">One</span> tehfghhxt</br> 
    <span class="cyrillic_text">Второй</span> cyrcyrcyr</br> 
</body> 
</html> 
""") 

txt1 = doc.xpath('/html/body/span[@class="simple_text"]/text()[1]') 
print(txt1) 

我想知道如何解析包含相同字符串的文件。並在同一個目錄中。請告訴我。

+0

從某種意義上說,問題很明顯,從初學者可以預料什麼。這個答案在http://lxml.de/parsing.html#parsing-html的'lxml'文檔中明確顯示。 'StringIO()'是如何使字符串充當開放文件的方式。您可以將打開的文件對象傳遞給'parse()'函數。它甚至可能會接受文件的名稱,並會爲您打開它。 – pepr

回答

2
string = open('file_with_string.html', 'r').read() 
doc = lxml.html.document_fromstring(string)