問題顯示XML解析

2016-08-04 70 views 0 likes

後我解析具有以下結構的XML文檔：問題顯示XML解析

<Distlist> 
    <DistDoc> 
    <Metadata></Metadata> 
    <ArchiveDoc> 
     <Article> 
      <Para>aaaaaa</Para> 
      <Para>bbbbbb</Para> 
      <Para>cccccc</Para> 
     </Article> 
    </ArchiveDoc> 
    </DistDoc> 
</Distlist>

我在每個文件5000篇文章，每篇文章的全文被分成段落。我提取與下面的代碼文章的全文（我用LXML）：

doc = etree.parse(path) #Parse file 
root=doc.getroot() #Get the root 

#Store full texts in list 
full_texts = [] 
for child in root: 
    full_texts.append("\n\n".join(child[1][0].itertext()))

當我看到是這樣的輸出：

aaaaaaabbbbbbcccc

雖然我的期望輸出（雙行打破）應該是：

aaaaaa 

bbbbbb 

cccccc

段落之間沒有分隔時很難閱讀。我究竟做錯了什麼？

來源

2016-08-04 pawelty

回答

遍歷article節點和連接para節點的文本：

for article in root.xpath(".//Article"): 
    texts = article.xpath(".//Para/text()") 
    print("\n".join(texts))

來源

2016-08-04 16:12:51 alecxe

它的工作，非常感謝！ – pawelty

相關問題

1. XML解析問題
2. XML解析問題
3. XML解析問題
4. 問題解析XML
5. XML解析問題
6. 解析XML問題
7. XML解析問題
8. XML解析問題
9. xml解析問題
10. XML解析問題
11. 使用AQXMLParser解析xml時顯示tableView更新的問題StreamingParser
12. 問題解析RSS xml
13. Jquery解析XML問題
14. XML解析器問題
15. Python XML解析問題
16. Python的XML解析問題
17. 問題解析XML文件
18. xml解析器問題
19. echache3 XML解析問題
20. XML解析器問題
21. 安卓：XML解析問題
22. XML解析URL問題
23. Java的XML解析問題
24. JAXB XML解析問題
25. PHP XML解析器問題
26. 調試問題解析XML
27. PHP XML解析問題
28. Android的XML解析問題
29. Python的XML解析問題
30. Rss解析問題（XML）