我需要從網站獲取圖像並在Ruby中解析文本。Ruby - 從URL獲取圖像並將其轉換爲文本
的圖像是非常簡單的,他們只是以圖片形式表示的數字:
http://www.telelistas.net/ImgFactory.ashx?t=6A7B&s=0
使用這個例子,我想這個圖片轉換爲文本「56」。
我需要從網站獲取圖像並在Ruby中解析文本。Ruby - 從URL獲取圖像並將其轉換爲文本
的圖像是非常簡單的,他們只是以圖片形式表示的數字:
http://www.telelistas.net/ImgFactory.ashx?t=6A7B&s=0
使用這個例子,我想這個圖片轉換爲文本「56」。
你需要什麼是OCR。看起來https://github.com/dannnylo/rtesseract是相當有前途的。您可以將圖像轉換爲像文本:從URL
image = RTesseract.new("my_image.jpg")
image.to_s #Getting the value
負載意味着基於雲的基於Web的OCR服務,如www.OCR-IT.com。其他基於Web的服務也應該能夠從URL打開。或者,如果您有興趣開發自己的OCR轉換工具,例如使用Tesseract,那麼很可能需要單獨添加「從URL打開」功能,這是可行的。最終,運行您自己的OCR將意味着將圖像下載到本地存儲在某個對過程透明的位置。考慮到某些圖像預處理是必要的,這不是一個壞的選擇。
除此之外,還有您的圖像樣本的幾個問題,這將影響任何OCR系統:
例如,ABBYY FineReader會8.0桌面應用程序了(世界上最好的商業OCR)不能從樣本中提取文本,是形式。
我看着這個庫,但我無法從URL加載圖片,當我測試它從本地文件系統加載我想要的圖片時,它引發了一個ConversionError。 – gabspeck 2014-09-19 21:19:02