使用Apache PdfBox在兩個書籤之間提取文本

我正在使用Apache PDFBox來讀取具有由書籤定義的層次結構的PDF文檔。層次結構是樹形格式，僅包含葉級別的內容。使用Apache PdfBox在兩個書籤之間提取文本

使用下面的代碼中提取二葉級書籤之間的文本：

Stripper.setStartBookmark(), 
Stripper.setEndBookmark(), 
Stripper.writeText()),

返回文本，而不是整個頁面。總之，我的問題類似於this thread中提到的問題。

有沒有辦法提取兩個書籤之間的內容？

如果是這樣，我的代碼應該改變什麼？

-I @Shiram有同樣的問題。如果您已經找到答案，請發佈答案 – Kasun 2012-08-24 09:36:52

您是否找到解決方案？如果沒有，您有書籤的示例（例如，以XML格式）。 – maffo 2013-02-03 23:11:18

我猜你的書籤不包含正確的數據。

這聽起來像你正在使用的僅指向的頁的書籤您的內容開始，而不是頁面上的位置。

這裏是包含位置數據的書籤的示例：

<Title Action="GoTo" Style="bold" Page="2 FitH 518"> Title Name </Title>

2013-02-04 07:30:57 maffo

在PDFBox中，書籤由於書籤中的特定GoTo操作而被解析爲PDPageXYZDestination。因此，他們確實指向了頁面中的絕對位置，這在我的PDF查看器中得到了驗證，點擊書籤可以直接滾動到部分。 – nickb 2013-02-04 14:02:12

回答