2017-08-09 112 views
0

我使用iText讀取包含XFA格式的PDF文檔。 我將它轉換爲XML,從XML讀取數據並將其插入到數據庫中。 但是如果我在PDF中沒有XFA表單,那麼我怎樣纔能有效地從PDF讀取數據?從不具有XFA格式的PDF文檔讀取數據

回答

-1

這取決於您的期望。

  • 您可以使用文本提取來檢索某個頁面上的所有文本。你如何處理文本取決於你。 (例如正則表達式)

  • 您也可以選擇使用pdf2Data,這是一個iText7插件,允許您將文檔與模板進行匹配。 pdf2Data看起來很合適,因爲它生成XML文件作爲輸出。

上pdf2Data的更多信息可以在這裏找到http://itextpdf.com/itext7/pdf2Data

+0

文本提取是不是值不能映射 – hrishi

+0

這取決於很多幫助。您可以使用將特定位置(矩形)作爲輸入的TextExtractionStrategies。這可以讓你更有針對性的方法。一旦將文本置於某個(粗略定義的)位置,就可以使用正則表達式來進一步優化結果。 –

+0

好的。謝謝,我會檢查它。我對PDF不太瞭解。我使用iText java代碼來讀取XFA表單。你可以分享任何示例代碼鏈接,我可以瞭解如何以編程方式使用它 – hrishi