2013-05-08 41 views
2

我在尋找可應用於文本PDF的佈局分析庫或工具(最好是開源),以識別主要文本內容與側邊欄,章節標題,章節標題(可能甚至是具有裝飾/陰影和下劃線的花式文檔)等。我遇到了像OCRopus這樣的工具,它們使用OCR和圖像識別來識別佈局。有沒有可以在沒有OCR的情況下執行相同的庫?可以從文本PDF中提取文本和圖像,並向工具提供包含文本和圖像位置的輸入;對這樣的文件使用OCR將是相當迂迴的。任何通用佈局分析庫或不基於OCR的工具?

回答

1

我也不知道這樣的獨立(如在不依賴於OCR或圖像處理)庫,但你應該能夠使用OCRopus或OCRFeeder(https://live.gnome.org/OCRFeeder)的佈局檢測片。你看過後者嗎?顯然,它可以與幾乎任何標準的OCR引擎一起工作,這意味着可以通過創建自己的「虛擬OCR」來使用佈局分析部分,這種「虛擬OCR」可以根據您的自定義邏輯提取數據(而不是任何實際的圖像處理)到OCRFeeder。

+0

謝謝。順便說一句,在發佈這個問題後,我碰巧遇到了OCRFeeder,儘管我還沒有嘗試使用它。 – so2 2013-05-14 00:28:28