任何通用佈局分析庫或不基於OCR的工具？

我在尋找可應用於文本PDF的佈局分析庫或工具（最好是開源），以識別主要文本內容與側邊欄，章節標題，章節標題（可能甚至是具有裝飾/陰影和下劃線的花式文檔）等。我遇到了像OCRopus這樣的工具，它們使用OCR和圖像識別來識別佈局。有沒有可以在沒有OCR的情況下執行相同的庫？可以從文本PDF中提取文本和圖像，並向工具提供包含文本和圖像位置的輸入;對這樣的文件使用OCR將是相當迂迴的。任何通用佈局分析庫或不基於OCR的工具？

來源

2013-05-08 so2

我也不知道這樣的獨立（如在不依賴於OCR或圖像處理）庫，但你應該能夠使用OCRopus或OCRFeeder（https://live.gnome.org/OCRFeeder）的佈局檢測片。你看過後者嗎？顯然，它可以與幾乎任何標準的OCR引擎一起工作，這意味着可以通過創建自己的「虛擬OCR」來使用佈局分析部分，這種「虛擬OCR」可以根據您的自定義邏輯提取數據（而不是任何實際的圖像處理）到OCRFeeder。

來源

2013-05-13 22:18:09 so1

謝謝。順便說一句，在發佈這個問題後，我碰巧遇到了OCRFeeder，儘管我還沒有嘗試使用它。 – so2 2013-05-14 00:28:28

任何通用佈局分析庫或不基於OCR的工具？

回答

相關問題