2
我使用的是Tesseract,但我不知道它是否忽略任何非文本區域並僅以文本爲目標。我是否必須刪除任何非文本區域作爲預處理步驟以獲得更好的輸出?Tesseract是否會忽略掃描文檔中的任何非文本區域?
我使用的是Tesseract,但我不知道它是否忽略任何非文本區域並僅以文本爲目標。我是否必須刪除任何非文本區域作爲預處理步驟以獲得更好的輸出?Tesseract是否會忽略掃描文檔中的任何非文本區域?
Tesseract有一個相當不錯的算法來檢測文本,但它最終會給出假陽性匹配。
理想情況下,您可以在將圖像提交給tesseract之前對圖像進行預處理。前一段時間我從事類似的任務,所以我建議你看一看以下材料: