我有一個包含數萬個XML文件(小文件)的語料庫,我試圖使用Python並提取包含在其中一個XML標記中的文本,例如,這樣的事情在身體標記之間的一切:使用Python ElementTree在XML標記中提取文本
<body> sample text here with <bold> nested </bold> tags in this paragraph </body>
,然後編寫包含此字符串文本文檔,然後繼續向下的XML文件的列表。
我正在使用effbot的ELementTree,但無法找到正確的命令/語法來執行此操作。我發現了一個使用miniDOM的dom.getElementsByTagName的網站,但我不確定ElementTree的相應方法。任何想法將不勝感激。
我與閱讀一些教程,然後開始; [潛入Python 3 XML章節](http://getpython3.com/diveintopython3/xml.html)將是一個好的開始。 –
在你的例子中,你是否也想要標籤''或者只有它裏面的文字? –
「body」標籤之外還有其他內容嗎? – poke