2017-08-10 58 views
1

我試圖從掃描的技術圖紙中提取文本。出於保密原因,我無法發佈實際繪圖,但看起來類似於this,但是在形狀內部更繁忙且文字更多。這個問題相當複雜,因爲字母相互碰觸的問題以及它周圍的邊界/符號。從掃描的工程圖中提取文本

我發現一個有趣的紙不正是這個名爲「文本區域的檢測從數字工程圖紙」由昭陽路。這是一個付費牆,所以你可能無法訪問它,但本質上它試圖抹去,這不是從圖像主要通過兩個步驟文字的一切:

1)擦除線性組件,包括長,短隔離線

2)擦除非文字筆劃筆劃

將有助於執行這些操作什麼樣的OpenCV函數的連接成分分析的條款?我寧願不從頭開始寫這些東西,但我懷疑我可能不得不這樣做。

我已經使用基於模板的方法來嘗試文本隔離嘗試過,但因爲文本位置不圖紙(即使是在同一個項目)之間是完全標準化的,它在檢測文本過去的第一個掃描失敗數字。

回答

0

很顯然,我從來沒有嘗試這種特定的任務,但如果真的像看起來像一個你告訴我我會通過刪除所有的垂直線和水平線開始。這可以非常容易地完成,只需設置一個寬度閾值,並且對於強度大於某個N值的所有像素,然後查看垂直於假想線方向的閾值像素量。如果它看起來像一條線擦除它。

更優雅,也許更好的是做Hough變換的直線和圓,並刪除這樣的元素。

另外你也許可以嘗試一些基於FFT的過濾,但我不這麼認爲。

我從來沒有使用OpenCV的,但我猜它可以做我所提到的事情。