可以將OCR文本插入源PDF的OCR庫

是否有可以OCR PDF（通常是通過掃描紙張創建的PDF）的庫（或可執行文件），並將識別的文本注入到PDF中？可能是掃描圖像背後的隱形文字。可以將OCR文本插入源PDF的OCR庫

最好是開源的。

（目標：。我有Lucene的索引PDF文件的一個巨大的圖書館這將是更容易爲Lucene來找到，如果PDF文件包含的文本什麼的PDF相關）

2011-02-28 Nicolas Raoul

問題轉移到https://softwarerecs.stackexchange.com/questions/3656/create-searchable-pdf-files-using-ocr-from-scanned-pdfs-in-bulk – 2018-02-16 13:42:08

一個最好的選擇是可能使用Abbyy FineReader，因爲它會給你很多選項，包括創建隱藏文本。 www.abbyy.com我快速瀏覽了他們的網站，還發現他們的Transformer產品可能更適合您的需求。

http://www.abbyy.com.au/pdftransformer/product_features/

來源

2012-04-27 04:06:44

如果PDF文件不包含文本，什麼是Lucene的索引？

看看Docsplitt（https://github.com/documentcloud/docsplit）它可以使用Tesseract來執行OCR。你會得到一個純文本文件，它反映了PDF的內容。您可以在這些文本文件之上構建Lucene索引，並在Lucene索引中存儲對PDF的引用。查詢Lucene索引後，您將獲得包含對原始PDF的引用的文檔列表。

來源

2013-01-17 10:33:03 maneo

PDF不包含文本，它就像一個形象。我在另一個文件中有文本，並希望將其注入到PDF中。如果可能的話，我想不要碰到Lucene配置。我的問題不是關於Lucene（我引用Lucene來說明，但它可能是一個不可配置的桌面搜索工具，例如） – 2013-01-17 11:31:53

如果是這樣，這一個似乎是你的問題的解決方案：[鏈接]（http：///stackoverflow.com/questions/3335126/itext-add-content-to-existing-pdf-file）。 IText是一回事，你也可以看看PDFbox。 – maneo 2013-01-17 20:52:10

是的，一個解決方案可能會涉及像iText/PDFbox的確如此！但是，您鏈接的問題也會使文本顯而易見。我想有一些很好的做法來嵌入不可見的文本，使用iText或PDFbox或其他。 – 2013-01-18 02:23:48

可以將OCR文本插入源PDF的OCR庫

回答

相關問題