2010-08-20 61 views
3
  1. 我有幾個從word或excel文件創建的pdf文件。從PDF中的嵌套表中提取數據

  2. 我需要得到表中的信息。

  3. 文檔中的文本不是圖像,所以我可以使用諸如pdfbox之類的工具提取文本。

  4. 當我有文本時,我無法知道它所屬表中的單元格,因爲我不知道表格邊界在哪裏。

  5. Iv'e嘗試了幾個桌面工具,如abby或固體pdf轉換器,他們能夠將文件轉換成漂亮的word文檔,但這不適合我的需要,因爲我希望能夠這樣做pro​​gramatticly在C#中。

  6. 一些表格有嵌套表,我認爲這使得這一點更diffucult。

我感謝你的幫助

+0

您可以從http://sourceforge.net/projects/pdftohtml/files/下載pdftohtml並使用-xml開關,查看xml輸出是否爲您提供了更好的佈局表格。 源代碼在C中可用,並且可以與一些工作接口。或者只需調用帶有進程調用的.exe文件即可。 – 2010-08-20 06:18:13

+0

這個解決方案根本不適用於我。 謝謝 – pooky 2010-08-23 11:28:03

+0

[如何使用itextsharp從PDF讀取表格]?(https://stackoverflow.com/questions/15679958/how-to-read-table-from-pdf-using-itextsharp) – bubi 2017-07-04 12:22:10

回答

1

這裏的難點是,在PDF文本中不包含任何表內造成的事實。它可能看起來像是,但在表面之下,事實並非如此。

因此,我可以考慮幾個選項。但是他們都不會像你想要的那樣令人滿意。

  1. 有一些公司提供用於PDF到Excel/Word轉換的SDK。 Investintech和Iceni就是一些例子。但這些解決方案不是免費的。
  2. 如果您知道需要從中提取表格數據的PDF文件的確切佈局,那麼您可以使用任何SDK讓您從PDF中提取文本,並告訴您所提取文本的確切座標。使用這種方法,您需要事先知道文本的位置,以便您可以從頁面上的特定區域提取文本。如果你需要處理任何隨機文件,它顯然不會工作。

這是一項艱鉅的任務,但希望這會給你一個出發點。

+0

謝謝你的迴應 1.你提到的程序沒有給出好的結果。我不介意使用不是免費的解決方案,但我必須確保它可以正常工作。100%我試着玩弄使用座標的解決方案,但我不明白我可以在不知道邊界座標的情況下使用此解決方案。 表格中文本的位置發生更改(嵌套表格,單元格中的多重線條) – pooky 2010-08-23 11:27:23