2015-07-28 63 views
0

我在用什麼:我正在使用Apache Tika解析我的Java應用程序中的PDF。PDF使用Tika解析區域

我需要的是什麼:我需要解析我的PDF的某個區域(即由Rectangle對象定義),就像我通常用iText所做的那樣。

問題:是否可以使用Apache Tika解析我的PDF的定義區域?怎麼樣?

+0

每頁是否正常,或者您是否需要比此更具體的區域? – Gagravarr

+0

一頁中的特定區域... – abierto

回答

1

Apache Tika將爲您提供文檔的簡化的標準化HTML表示。對於基於頁面的格式(如PDF或PPT),它將標記頁面邊界,但對於非基於頁面的格式(例如基於運行的.doc),則不會。

你需要做的是下降到Apache PDFBox,這是在Tika中爲PDF解析器提供動力的底層庫。使用PDFBox,您可以獲取給定頁面上對象的位置,找出它們是否在您想要的範圍內,並獲取它們的文本。它不會像使用Apache Tika一樣容易,但是對於這個級別的控制,您需要更多地參與