2010-12-06 108 views
1

我正在尋找一個(最好是Java-)庫或命令行工具來從pdf中提取單詞座標。輸入-PDF包含文本或背後帶有ocr-text的圖像。圖書館/工具從pdf中提取單詞座標

我的使用案例:
在一個Java Web應用程序,我想用這個做打突出和現在這個無需額外的軟件(如Adobe Reader的等)。相反,我想將匹配的頁面轉換爲圖像並將它們呈現在網頁中。

+0

的iText將不會呈現PDF。它可以找到文本和座標(在PDF內的這些內容的範圍內),但無法爲您繪製圖像。 – 2010-12-06 20:53:25

回答

0

您可以使用JPedal生成縮略圖(http://www.jpedal.org/pdf_thumbnail_tutorials.php),並提取文本(http://www.jpedal.org/support_egETAW.php)