我有幾個從word或excel文件創建的pdf文件。從PDF中的嵌套表中提取數據
我需要得到表中的信息。
文檔中的文本不是圖像,所以我可以使用諸如pdfbox之類的工具提取文本。
當我有文本時,我無法知道它所屬表中的單元格,因爲我不知道表格邊界在哪裏。
Iv'e嘗試了幾個桌面工具,如abby或固體pdf轉換器,他們能夠將文件轉換成漂亮的word文檔,但這不適合我的需要,因爲我希望能夠這樣做programatticly在C#中。
一些表格有嵌套表,我認爲這使得這一點更diffucult。
我感謝你的幫助
您可以從http://sourceforge.net/projects/pdftohtml/files/下載pdftohtml並使用-xml開關,查看xml輸出是否爲您提供了更好的佈局表格。 源代碼在C中可用,並且可以與一些工作接口。或者只需調用帶有進程調用的.exe文件即可。 – 2010-08-20 06:18:13
這個解決方案根本不適用於我。 謝謝 – pooky 2010-08-23 11:28:03
[如何使用itextsharp從PDF讀取表格]?(https://stackoverflow.com/questions/15679958/how-to-read-table-from-pdf-using-itextsharp) – bubi 2017-07-04 12:22:10