2016-03-01 49 views
0

我想知道是否有可能通過其部分(標題,正文,頁腳等)檢索PDF中的文本我能夠獲得文本和它們的具體座標,但我不想定義我自己的x和y部分的座標。我想知道是否有更加動態的方法來解決這個問題。 也許循環使用XrefObjects。任何幫助將不勝感激。先謝謝了。如何識別iTextSharp中PDF的一部分?

+0

通用PDF不包含什麼是頁眉,頁腳,正文的明確信息,它只知道在特定座標處繪製的文本和圖形。您可以嘗試和分析給定的隱式信息,例如,通過字體,字體大小,對齊,差距等pp。但是這是一個項目本身。 – mkl

回答

2

除非你的PDF文件已被一個非常一致的源創建和你沒有處理「一般的PDF文件」,回答你的問題是:

  • 沒有,你可以」 t以簡單的方式做到這一點
  • 但你可以想出一個動態的方法(也許)。

PDF沒有任何規定來構造它的內容,比如你在XML,HTML,Word等中的內容......標題,主體,頁腳的概念不存在。即使是段落,行或詞的概念也不存在。 PDF僅對確保在特定位置顯示特定字符​​(字形)感興趣。

所以,如果你想提出一個動態的方法,你將不得不編寫一個算法來分析頁面上所有文本的文本位置,並將其與該文本的其他屬性相關聯(例如使用的字體,字體大小,顏色,風格...),並從該分析中猜測標題,正文和頁腳的內容。