2
我在尋找可應用於文本PDF的佈局分析庫或工具(最好是開源),以識別主要文本內容與側邊欄,章節標題,章節標題(可能甚至是具有裝飾/陰影和下劃線的花式文檔)等。我遇到了像OCRopus這樣的工具,它們使用OCR和圖像識別來識別佈局。有沒有可以在沒有OCR的情況下執行相同的庫?可以從文本PDF中提取文本和圖像,並向工具提供包含文本和圖像位置的輸入;對這樣的文件使用OCR將是相當迂迴的。任何通用佈局分析庫或不基於OCR的工具?
謝謝。順便說一句,在發佈這個問題後,我碰巧遇到了OCRFeeder,儘管我還沒有嘗試使用它。 – so2 2013-05-14 00:28:28