2013-09-29 33 views
1

進出口新的.NET,我有一個包含三個表,(與購買細節)我的任務就是提取所有從PDF 3個表和每個轉換到Excel表格中的PDF(三個Excel表)使用C#代碼。,我google'd 3天,所有我能找到的代碼是從pdf中提取文本(但沒有任何格式),我不能購買任何第三方工具,我需要一種方式來至少提取在適當的表格格式的文本,然後我將它轉換爲使用互操作,或直接轉換爲Excel的代碼,無論解決方案是我急需它,請幫助。轉換PDF文件到Excel工作表

回答

2

itextpdf對C#從PDF中提取的信息,但是回答向何處去,我們可以提取表支持:

如上所述:你不能從一個PDF,看起來像一個 形式獲取領域,如果PDF不是從技術角度來看的話;你 不能從PDF,看起來像一個表,如果表格 結構(使用標籤)弄一個表缺少PDF內。

這是我從他們的support panel

+0

是否有任何其他方式,基於列標題atleast正確提取表值? – user2740323

1

了,我建議你看看xpdf。 它有一個命令行界面,你可以從你的pdf中獲得一個文本文件。 最重要的是,在列的情況下,xpdf會生成一個間隔很大的文本文件,因此您可以使用Substring()或在最糟糕的情況下使用正則表達式輕鬆讀取數據。 在最簡單的情況下,您可以直接將PDF輸出導入到Excel中作爲帶有「固定寬度字段」的文本文件。