2009-05-21 74 views
2

我們需要一個大容量的掃描和OCR解決方案高容量掃描和ocr自動解決方案?

我們在說什麼數字化約4000記載了一天,並將其保存爲帶有OCR PDF文件(隱藏文本)...

的解決方案應該讓運營商掃描文檔並自動將文件保存到特定的網絡資源,將要採取的,它上傳到數據庫的應用程序...

我們正在評估從的Kofax http://www.kofax.com/

的企業解決方案等什麼你知道哪些產品?

有類似要求的任何經驗嗎?

任何開源(或至少可訪問)的解決方案?

com,activex api支持?

回答

0

Kofax不是非常有用或用戶友好(每個我的同事與縣工作)。這是足夠的,但不好。

我們使用全部Adobe解決方案。要遵循的細節(我不負責運行該區域,所以我必須爲您收集一些信息)。

更新:我們使用

的Adobe Acrobat捕獲3.0
兩個RICOH彩色掃描儀IS760D與ADF
Acrobat標準版或專業版(取決於用戶)

我們有豐富的圖書館(幾乎6,000份文檔),並提供成千上萬的掃描頁面。掃描的計算機上有一個我們購買的加密狗(25萬次掃描,直到我們需要購買'更新');自從處理這件事的那位先生今天回家以來,我沒有可用的成本,但我記得它在每頁微錢。

我們經常掃描幾百頁需要完成的頁面的文檔,並且我們完成該任務沒有問題。

如果您想了解我們所做的一些事情,可以通過http://acequia.ccrfcd.org/FileLibrary2/FileLibrary.aspx獲取我們一些工作的鏈接(網絡前端或我們的圖書館)。

至於把這些PDF文件放到數據庫中,創建一個應用程序(可能是一個服務)來監控一個目錄並獲取在Capture運行之後彈出的每個PDF文件,將信息複製到數據庫,然後刪除它或將它移到它的新家。

+0

非常感謝您的信息,邁克爾,如果你能提供告訴我每PEGA的成本將是美好的... 順便說一下,做的每提供商實現每頁的政策? ??我認爲kofax提供了一個類似的解決方案,一個加密狗,併爲每個掃描頁面付費...... – opensas 2009-05-23 14:01:07

4

有許多掃描產品供應商可以做你想做的事 - 掃描,索引,生成帶有OCR覆蓋的PDF(個人而言,我更喜歡PDF中的OCR底層)。對於專門從事掃描的供應商而言,這些要求相當微不足道。僅舉幾個其他供應商/產品除了到Kofax:

  • EMC公司/ captiva的InputAccel產品
  • Datacap
  • 的eCopy SHARESCAN
  • 的Verity /加的夫/自治

許多文件管理解決方案也具有內置的掃描前端,但它們通常不如專業捕獲產品功能強大。幾乎所有這些解決方案都具有COM/ActiveX API支持。我不知道任何掃描的開源解決方案,但我從來沒有真的搜索任何。

大多數掃描軟件供應商都使用「批量」或「容量」許可證。通常情況下,該卷在期限結束時更新(即每年1M頁 - 每年自動更新,無需額外費用)。因此,如果您每年購買1M張圖片的容量,並且您最終只掃描500K頁,則您無法嚴格按「每頁」付費。有可能,雖然很少有一次性卷沒有自動更新,並且當它用完時,您將需要購買額外的卷。大多數供應商正在轉移加密狗來控制量,並轉向軟件許可。

旁註有關Kofax:

的Kofax歷來通過增值經銷商的系統出售所以各種實施方式中的質量可以廣泛變化。此外,它具有高度的可定製性,並帶有許多附加模塊,因此一個客戶的Kofax系統可能與其他系統有很大不同。

Kofax用於企業級系統,每年掃描和自動捕獲數百萬和數百萬份文檔。它擁有大量的文檔掃描市場份額。不,我不是Kofax的粉絲,如果我是我就不會提到有競爭力的產品;不過,我對此非常熟悉。像市場上的其他產品一樣,它有優點和缺點。我意識到邁克爾只是在傳達他所聽到的內容,但我無法讓這種籠統的概括通過沒有評論。說一個佔有很大比例市場份額的產品對於掃描來說「沒有用處或者用戶友好」就像是說「Windows不是有用的服務器操作系統」。這只是泛泛之談。

乾杯,

布賴恩

+0

在這個奇怪不受歡迎的主題(高容量圖像捕獲)上的良好答案。 – Lunatik 2011-03-29 08:30:00

0

如何以及你希望自己的OCR是?你需要所有的內容是人類可讀的嗎?或者你只需​​要一些內容就可以對文檔進行分類(客戶編號;文檔類型;條形碼...)。

http://www.irislink.com是一家開發掃描和分類文檔解決方案的公司。
他們的軟件包含在幾種品牌的多功能和消費類掃描儀中。 該公司更傾向於提取信息並使用它(f.e.將發票自動輸入到會計軟件中)。
我的經驗是,它更好地處理OCR的文本(糾正文字等)。)比Kofax(我們都使用);儘管Kofax可以擴展更多以達到更好的水平(這意味着更多的設置工作和更多的維護)。

這兩種軟件對於他們如何處理文檔都非常有用。
如果您只希望掃描文檔;轉換爲pdf並保存在網絡共享;你可能有足夠的購買一臺好的掃描儀和使用附帶的軟件。
您也可以查看tesseract項目;它是一款開源的ocr引擎,效果不錯。

0

你可以試試ChronoScan,它有免費的OCR通過​​tesseract,並有表格識別選項,它是免費的非商業用途。

該軟件處於高級開發階段,您可以通過論壇與開發人員直接交流。

http://www.chronoscan.org Short video reading forms