我正在尋找一種OCR軟件,可將HTML疊加到圖像上。我目前正在使用一些未命名的產品。它具有OCR功能,可以對圖像進行PDF文檔的內聯OCR。將HTML疊加到圖像上的OCR?
聯機OCR非常方便,它允許搜索帶有圖像的PDF文檔以獲取文本。此外,文本可以直接在文檔中突出顯示,OCR文本與底層圖像對齊。不幸的是,我可以在未命名的產品中輸出或儲存聯機OCR。
是否有其他軟件可以執行和導出內聯OCR?我會特別感興趣的是將HTML文件導出到與底層圖像對齊的定位段落中。
我正在尋找一種OCR軟件,可將HTML疊加到圖像上。我目前正在使用一些未命名的產品。它具有OCR功能,可以對圖像進行PDF文檔的內聯OCR。將HTML疊加到圖像上的OCR?
聯機OCR非常方便,它允許搜索帶有圖像的PDF文檔以獲取文本。此外,文本可以直接在文檔中突出顯示,OCR文本與底層圖像對齊。不幸的是,我可以在未命名的產品中輸出或儲存聯機OCR。
是否有其他軟件可以執行和導出內聯OCR?我會特別感興趣的是將HTML文件導出到與底層圖像對齊的定位段落中。
我要給你一個可能的解決方案。但是,這個特定的解決方案有一些缺點,這可能會阻礙你最終的目標。在爲PDF
首先轉換圖像文件:http://finereader.abbyyonline.com 然後轉換成PDF格式的http://document.online-convert.com/convert-to-html
該解決方案適用於事物關於紙的大小,而最終的結果與圖像重疊的HTML,如果到HTML所有你想要的是與圖像格式的HTML只是使圖像完全透明。
我發現Google Drive API在需要OCR時很有幫助。它試圖保留當然可以導出爲HTML的文檔格式。
看看下面的鏈接:
我也有興趣在這個問題上。 (我假設「未命名」意味着它是專有的,而不是你不知道它是什麼)。你是在訓練OCR還是假設它會對給定的字符集進行解釋。 shapecatcher.com會幫助你嗎?它會針對標準Unicode字形集運行位圖嗎? – 2013-05-12 16:11:22
謝謝。我正在製作一個完整的OpenSource解決方案來提取信息(bitbucket.org/petermr/pdf2svg-dev和bitbucket.org/petermr/svg2xml-devfrom PDF,但尚未在圖像/ OCR部分做過很多工作。我期望首先解決ANSI問題,但不要屏住呼吸。 – 2013-05-12 16:18:36