我需要一個給定的文件解析成字符串列表, 給定文件的風格是這樣的:蟒蛇 - XML/HTML解析problam
<DOC>
<DOCNUM> NUMBER </DOCNUM>
<DOCTYPE> TYPE </DOCTYPE>
<HEADER>
&SOMETHING
</HEADER>
<BODY>
<HEADLINE>
SOME TEXT
</HEADLINE>
TEXT
TEXT
TEXT
<TEXT>
<P>
INPUT TEXT1
</P>
<P>
INPUT TEXT2
</P>
.
.
.
</TEXT>
</BODY>
</DOC>
我需要裏面的所有的TEXTi實例的列表P標籤外觀。 我試圖用lxml xml解析器來做這件事,但是因爲&某些東西在xml格式中是不可接受的,所以它不起作用... 我嘗試過使用html解析器,但是我沒弄清楚如何使它工作。
沒有人知道一個好的方法來獲得我需要的清單嗎?