如何自定義Tesseract忽略噪音？

正如已經sugested - 嘗試使用erode和dilate或某種模糊的。這是最簡單的解決方案。
查找所有等高線（findContours函數），然後刪除面積小於某個值的所有等值線（嘗試不同的值，您應該找到正確的等高線）。請注意，該值可能不是恆定的 - 例如，您可以嘗試使用平均輪廓面積的80％（只需添加所有輪廓面積，再除以輪廓數量並乘以0.8）。
查找所有等高線。創建一個整數數組，長度等於圖像高度。用零填充數組。現在爲每個輪廓：
I.找到頂部和底部點（y座標的最大值和最小值的點）。我們來命名這個點T和B。
二，將一個索引在B.y和T.y之間的所有元素添加一個。（所以如果B =（1,4）並且T =（3,11），則向數組[4]，數組[5]，數組[6] ...，數組[11]）加1。
找到數組的最大元素。我們將這個值命名爲v。所有輪廓B.y <= v <= T.y應該是字母，其他輪廓 - 噪音。

2013-04-07 15:12:49 cyriel

做連接組件標籤....這是blob計數....所有劑量噪聲永遠不會匹配數字的大小....與形態學技術的數字也得到修改...標籤image ...計算每個標記區域中的像素數量並設置一個閾值（您可以輕鬆設置，因爲您只會有數字和噪音）... cvblob是用C++編寫的代碼庫，可供用戶使用...

2013-04-07 16:07:38

通過使用圖像處理技術（形態學操作，如侵蝕和擴張），您可以輕鬆去除這些噪音，您可以選擇opencv進行此操作。

2017-07-27 08:34:58 Aditya

回答