2017-04-18 268 views
2

我是一個Asp.Net核心項目。這個項目引用另一個庫,我應該從pdf中提取信息。我正在使用itextsharp,但它似乎與.net核心不兼容。在Net Core中解析pdf

任何想法如何從PDF文件中提取文本?

+1

如果你在這裏問這個問題,我們可以爲第三方庫的建議:HTTP:// softwarerecs .stackexchange.com/ –

+0

我投票結束這個問題作爲題外話,因爲它應該在軟件建議 – VMAtm

+0

@VMAtm如果沒有第三方庫,最好能夠做到這一點。如果這是我通過圖書館做的唯一方法。但我的問題不是關於在單獨的庫(或「最好的庫」)之間進行選擇。我的問題是如何去做。也許這需要一個圖書館,我還不知道。 – J4N

回答

0

如果你想編寫自己的pdf解析器,你需要閱讀所有不同版本的pdf文件格式。他們都是正式記錄的here

+0

我並不認爲這很複雜。有不同版本的修訂版本很多,PDF包含1310頁,我無法閱讀所有這些(也沒有實現所有這些版本)不是最簡單的方法嗎?我只是試圖從PDF中獲取一些文本... – J4N

+0

對於遲到的回覆感到抱歉,但不幸的是,沒有更簡單的方法,只能使用已由其他人編寫的庫。你可能會寫一半隻能讀取文本字段的解析器,但你仍然需要考慮格式的不同版本。這是除非你絕對確定你的解析器將閱讀的pdf將是一個確切的版本。另外,還有一點需要注意的是,有時候文本不會以pdf的形式存儲,而是以圖像形式存儲。 – Bobby

0

從PDF中提取文本是一項複雜的任務。如果沒有圖書館,我不會推薦你這樣做。

對於Asp.Net核心庫,我可以推薦你Docotic.Pdf library(我爲供應商工作)。庫supports .NET Standard,可以用來提取不僅文本,但路徑和圖像。

下面是一些樣本:

+0

謝謝你的回答,但它是一個非常小的開源項目,我在我的空閒時間,我無法承受你的許可證:( – J4N

+0

看看https://github.com/VahidN/iTextSharp。 LGPLv2.Core –