2011-03-02 275 views
10

我有興趣使用OCR從簡單文本中提取粗體和斜體字。例如,如果我輸入文字清晰的圖像,像這樣:「快速棕色狐狸狗跳我可以使用OCR來檢測字體樣式(粗體,斜體)嗎?

我想獲得像這樣的輸出:大膽(「棕色」,「跳躍」),斜體(「懶」)

我已經調查過與OCRopus或正方體這樣做,但文檔窮人,我不知道是否有可能,或者如果這是可能的話。

回答

9

Tesseract 3.0.1中有這樣的功能,來自主幹。一類新的被添加到API - ResultIterator,它具有以下功能,您感興趣的是:

WordFontAttributes(bool* is_bold, 
        bool* is_italic, 
        bool* is_underlined, 
        bool* is_monospace, 
        bool* is_serif, 
        bool* is_smallcaps, 
        int* pointsize, 
        int* font_id). 

其實你可以從here.

+0

新網址:https://github.com/tesseract-ocr/tesseract/blob/3.01/api/resultiterator.h#L95 – 2015-12-28 22:44:31

相關問題