我可以使用OCR來檢測字體樣式（粗體，斜體）嗎？

我有興趣使用OCR從簡單文本中提取粗體和斜體字。例如，如果我輸入文字清晰的圖像，像這樣：「快速棕色狐狸在的懶狗跳」我可以使用OCR來檢測字體樣式（粗體，斜體）嗎？

我想獲得像這樣的輸出：大膽（「棕色」，「跳躍」），斜體（「懶」）

我已經調查過與OCRopus或正方體這樣做，但文檔窮人，我不知道是否有可能，或者如果這是可能的話。

2011-03-02 vamin

Tesseract 3.0.1中有這樣的功能，來自主幹。一類新的被添加到API - ResultIterator，它具有以下功能，您感興趣的是：

WordFontAttributes(bool* is_bold, 
        bool* is_italic, 
        bool* is_underlined, 
        bool* is_monospace, 
        bool* is_serif, 
        bool* is_smallcaps, 
        int* pointsize, 
        int* font_id).

其實你可以從here.

來源

2011-03-07 11:49:59 zkunov

新網址：https://github.com/tesseract-ocr/tesseract/blob/3.01/api/resultiterator.h#L95 – 2015-12-28 22:44:31

的正方體3.0倍的基於XML的HOCR格式包括你自己看看吧人物屬性。你可能想嘗試一下。

http://code.google.com/p/tesseract-ocr/issues/detail?id=377#c5

來源

2011-05-14 23:46:42 nguyenq

我可以使用OCR來檢測字體樣式（粗體，斜體）嗎？

回答

相關問題