2013-03-18 391 views
1

有什麼方法可以使用iText庫來獲取PDF文件中給定段落的段落數量或內容?我在一些代碼中看到了一些類,如段落,塊在創建新的PDF文件,但我找不到任何方式來獲取這些類閱讀文件。每個想法都被讚賞如何使用iText庫獲取pdf文件的段落內容?

回答

3

您正在討論的是PDF格式的PDF嗎?否則,你對PDF做出了錯誤的假設。在PDF中,內容在頁面上繪製。例如:一個iText PdfPTable被轉換成文本狀態操作符,將文本片段繪製到畫布上,以及繪製路徑和形狀的圖形狀態操作符。如果PDF未加標籤,則行不知道它們是表格的邊界;一個單詞不知道它屬於哪個單元格。

這同樣適用於段落:文本片段不知道它是否屬於一個句子,一個段落,一個標題行,...

由於PDF的本質,是什麼你正在尋找可能是不可能的(使用iText或任何其他軟件產品),或可能需要啓發式(人工智能)來檢查所有文本狀態操作符和內容的語義,以獲得模仿人類如何解釋文本的結果。

如果您的PDF標記正確,這很容易實現。請參閱ParseTaggedPdf示例。

相關問題