2012-03-06 101 views
6

我正在使用Apache PDFBox來讀取具有由書籤定義的層次結構的PDF文檔。層次結構是樹形格式,僅包含葉級別的內容。使用Apache PdfBox在兩個書籤之間提取文本

使用下面的代碼中提取二葉級書籤之間的文本:

Stripper.setStartBookmark(), 
Stripper.setEndBookmark(), 
Stripper.writeText()), 

返回文本,而不是整個頁面。總之,我的問題類似於this thread中提到的問題。

有沒有辦法提取兩個書籤之間的內容?

如果是這樣,我的代碼應該改變什麼?

+0

-I @Shiram有同樣的問題。如果您已經找到答案,請發佈答案 – Kasun 2012-08-24 09:36:52

+0

您是否找到解決方案?如果沒有,您有書籤的示例(例如,以XML格式)。 – maffo 2013-02-03 23:11:18

回答

0

我猜你的書籤不包含正確的數據。

這聽起來像你正在使用的僅指向的頁的書籤您的內容開始,而不是頁面上的位置

這裏是包含位置數據的書籤的示例:

<Title Action="GoTo" Style="bold" Page="2 FitH 518"> 
Title Name 
</Title> 
+0

在PDFBox中,書籤由於書籤中的特定GoTo操作而被解析爲PDPageXYZDestination。因此,他們確實指向了頁面中的絕對位置,這在我的PDF查看器中得到了驗證,點擊書籤可以直接滾動到部分。 – nickb 2013-02-04 14:02:12

相關問題