2011-02-28 64 views
2

是否有可以OCR PDF(通常是通過掃描紙張創建的PDF)的庫(或可執行文件),並將識別的文本注入到PDF中?可能是掃描圖像背後的隱形文字。可以將OCR文本插入源PDF的OCR庫

最好是開源的。

(目標:。我有Lucene的索引PDF文件的一個巨大的圖書館這將是更容易爲Lucene來找到,如果PDF文件包含的文本什麼的PDF相關)

+0

問題轉移到https://softwarerecs.stackexchange.com/questions/3656/create-searchable-pdf-files-using-ocr-from-scanned-pdfs-in-bulk – 2018-02-16 13:42:08

回答

0

一個最好的選擇是可能使用Abbyy FineReader,因爲它會給你很多選項,包括創建隱藏文本。 www.abbyy.com我快速瀏覽了他們的網站,還發現他們的Transformer產品可能更適合您的需求。

http://www.abbyy.com.au/pdftransformer/product_features/

0

如果PDF文件不包含文本,什麼是Lucene的索引?

看看Docsplitt(https://github.com/documentcloud/docsplit)它可以使用Tesseract來執行OCR。你會得到一個純文本文件,它反映了PDF的內容。您可以在這些文本文件之上構建Lucene索引,並在Lucene索引中存儲對PDF的引用。查詢Lucene索引後,您將獲得包含對原始PDF的引用的文檔列表。

+0

PDF不包含文本,它就像一個形象。我在另一個文件中有文本,並希望將其注入到PDF中。如果可能的話,我想不要碰到Lucene配置。我的問題不是關於Lucene(我引用Lucene來說明,但它可能是一個不可配置的桌面搜索工具,例如) – 2013-01-17 11:31:53

+0

如果是這樣,這一個似乎是你的問題的解決方案:[鏈接](http:///stackoverflow.com/questions/3335126/itext-add-content-to-existing-pdf-file)。 IText是一回事,你也可以看看PDFbox。 – maneo 2013-01-17 20:52:10

+0

是的,一個解決方案可能會涉及像iText/PDFbox的確如此!但是,您鏈接的問題也會使文本顯而易見。我想有一些很好的做法來嵌入不可見的文本,使用iText或PDFbox或其他。 – 2013-01-18 02:23:48