2013-05-12 114 views
6

我正在尋找一種OCR軟件,可將HTML疊加到圖像上。我目前正在使用一些未命名的產品。它具有OCR功能,可以對圖像進行PDF文檔的內聯OCR。將HTML疊加到圖像上的OCR?

聯機OCR非常方便,它允許搜索帶有圖像的PDF文檔以獲取文本。此外,文本可以直接在文檔中突出顯示,OCR文本與底層圖像對齊。不幸的是,我可以在未命名的產品中輸出或儲存聯機OCR。

是否有其他軟件可以執行和導出內聯OCR?我會特別感興趣的是將HTML文件導出到與底層圖像對齊的定位段落中。

參見:
https://stackoverflow.com/questions/11404805/ocr-and-the-location-of-the-image-where-the-scanned-document-came-from

+0

我也有興趣在這個問題上。 (我假設「未命名」意味着它是專有的,而不是你不知道它是什麼)。你是在訓練OCR還是假設它會對給定的字符集進行解釋。 shapecatcher.com會幫助你嗎?它會針對標準Unicode字形集運行位圖嗎? – 2013-05-12 16:11:22

+0

謝謝。我正在製作一個完整的OpenSource解決方案來提取信息(bitbucket.org/petermr/pdf2svg-dev和bitbucket.org/petermr/svg2xml-devfrom PDF,但尚未在圖像/ OCR部分做過很多工作。我期望首先解決ANSI問題,但不要屏住呼吸。 – 2013-05-12 16:18:36

回答

1

我要給你一個可能的解決方案。但是,這個特定的解決方案有一些缺點,這可能會阻礙你最終的目標。在爲PDF

首先轉換圖像文件:http://finereader.abbyyonline.com 然後轉換成PDF格式的http://document.online-convert.com/convert-to-html

該解決方案適用於事物關於紙的大小,而最終的結果與圖像重疊的HTML,如果到HTML所有你想要的是與圖像格式的HTML只是使圖像完全透明。