2016-08-04 406 views
0

我有一個docx文檔,它被分成幾個小節和小節,例如如何使用python-docx提取docx文檔中的節號?

A部分

texttexttext

  1. texttexttext

    1.1 texttexttext

  2. texttexttext

    (一)texttexttext

我想使用Python,DOCX提取文本。很容易得到段落中的文本,但我不知道如何獲取章節標題的文本(例如「1.」和「(a)」等)。是否有捷徑可尋?

回答

0

它的容易程度取決於文檔作者在構建文檔時的嚴格程度。例如,最好的情況是,作者已經爲所有章節標題使用了樣式,然後你可以通過段落選擇出「標題1」樣式的段落。

for paragraph in document.paragraphs: 
    if paragraph.style.name == 'Heading 1': 
     print(paragraph.text) 

如果作者不是應用的字符格式像大膽和字體大小指定標題,你的工作會更嚴格,因爲這些都是不太可能唯一標識的標題。

相關問題