2014-08-29 57 views
0

我經常收到大量相同的PDF表單。我想從他們的數據提取到一個文本文件。我想通過某種腳本來做到這一點。我正在UNIX環境中工作。從很多PDF表格中提取數據

這可能嗎?我一直在搜尋我的大腦,找不到任何東西。

回答

0

PDF中的文本由頁面內容流中的文本元素表示。流通常被壓縮。如果您有時間和資源,可以使用ISO 32000-1:2008或Adobe PDF 1.7規範來構建您自己的PDF解析器。或者使用第三方應用程序作爲中間轉換步驟可能更實用。

有些工具可以解碼流併爲您提供明文。一個選項是PDFtk Server,它可以在你的環境中工作。另一種選擇是使用Poppler PDF渲染庫,該庫有一個命令行實用程序「pdftotext」,用於搜索PDF中的字符串。

+0

該操作討論了PDF表單。 PDF格式的內容是**不是**頁面內容的一部分。因此,提取頁面內容將無濟於事。當然,據說假設op表示根據規範的PDF表單... – mkl 2014-08-29 19:56:27

+0

不幸的是,我沒有安裝在服務器上的許多開源工具,也無法安裝它們。 我發現這很有可能在Excel中使用VBA和一些Acrobat庫進行這種提取。不幸的是,這對我的問題沒有幫助,但Excel解決方案非常簡單。 – Greg 2014-09-27 22:01:33