2014-09-19 242 views

回答

2

你需要什麼是OCR。看起來https://github.com/dannnylo/rtesseract是相當有前途的。您可以將圖像轉換爲像文本:從URL

image = RTesseract.new("my_image.jpg") 
image.to_s #Getting the value 
+3

我看着這個庫,但我無法從URL加載圖片,當我測試它從本地文件系統加載我想要的圖片時,它引發了一個ConversionError。 – gabspeck 2014-09-19 21:19:02

1

負載意味着基於雲的基於Web的OCR服務,如www.OCR-IT.com。其他基於Web的服務也應該能夠從URL打開。或者,如果您有興趣開發自己的OCR轉換工具,例如使用Tesseract,那麼很可能需要單獨添加「從URL打開」功能,這是可行的。最終,運行您自己的OCR將意味着將圖像下載到本地存儲在某個對過程透明的位置。考慮到某些圖像預處理是必要的,這不是一個壞的選擇。

除此之外,還有您的圖像樣本的幾個問題,這將影響任何OCR系統:

  • 分辨率太低。你可能需要人爲地吹掉決議。
  • 尺寸太小(與上述相關)。您可能需要人爲地擴展圖片。
  • GIF不支持OCR格式。
  • 分辨率和元數據中缺少頭,不像TIF/PNG/JPG

例如,ABBYY FineReader會8.0桌面應用程序了(世界上最好的商業OCR)不能從樣本中提取文本,是形式。

相關問題