我有興趣使用OCR從簡單文本中提取粗體和斜體字。例如,如果我輸入文字清晰的圖像,像這樣:「快速棕色狐狸在的懶狗跳」我可以使用OCR來檢測字體樣式(粗體,斜體)嗎?
我想獲得像這樣的輸出:大膽(「棕色」,「跳躍」),斜體(「懶」)
我已經調查過與OCRopus或正方體這樣做,但文檔窮人,我不知道是否有可能,或者如果這是可能的話。
我有興趣使用OCR從簡單文本中提取粗體和斜體字。例如,如果我輸入文字清晰的圖像,像這樣:「快速棕色狐狸在的懶狗跳」我可以使用OCR來檢測字體樣式(粗體,斜體)嗎?
我想獲得像這樣的輸出:大膽(「棕色」,「跳躍」),斜體(「懶」)
我已經調查過與OCRopus或正方體這樣做,但文檔窮人,我不知道是否有可能,或者如果這是可能的話。
Tesseract 3.0.1中有這樣的功能,來自主幹。一類新的被添加到API - ResultIterator
,它具有以下功能,您感興趣的是:
WordFontAttributes(bool* is_bold,
bool* is_italic,
bool* is_underlined,
bool* is_monospace,
bool* is_serif,
bool* is_smallcaps,
int* pointsize,
int* font_id).
其實你可以從here.
的正方體3.0倍的基於XML的HOCR格式包括你自己看看吧人物屬性。你可能想嘗試一下。
http://code.google.com/p/tesseract-ocr/issues/detail?id=377#c5
新網址:https://github.com/tesseract-ocr/tesseract/blob/3.01/api/resultiterator.h#L95 – 2015-12-28 22:44:31