我是一個Asp.Net核心項目。這個項目引用另一個庫,我應該從pdf中提取信息。我正在使用itextsharp,但它似乎與.net核心不兼容。在Net Core中解析pdf
任何想法如何從PDF文件中提取文本?
我是一個Asp.Net核心項目。這個項目引用另一個庫,我應該從pdf中提取信息。我正在使用itextsharp,但它似乎與.net核心不兼容。在Net Core中解析pdf
任何想法如何從PDF文件中提取文本?
如果你想編寫自己的pdf解析器,你需要閱讀所有不同版本的pdf文件格式。他們都是正式記錄的here。
從PDF中提取文本是一項複雜的任務。如果沒有圖書館,我不會推薦你這樣做。
對於Asp.Net核心庫,我可以推薦你Docotic.Pdf library(我爲供應商工作)。庫supports .NET Standard,可以用來提取不僅文本,但路徑和圖像。
下面是一些樣本:
謝謝你的回答,但它是一個非常小的開源項目,我在我的空閒時間,我無法承受你的許可證:( – J4N
看看https://github.com/VahidN/iTextSharp。 LGPLv2.Core –
如果你在這裏問這個問題,我們可以爲第三方庫的建議:HTTP:// softwarerecs .stackexchange.com/ –
我投票結束這個問題作爲題外話,因爲它應該在軟件建議 – VMAtm
@VMAtm如果沒有第三方庫,最好能夠做到這一點。如果這是我通過圖書館做的唯一方法。但我的問題不是關於在單獨的庫(或「最好的庫」)之間進行選擇。我的問題是如何去做。也許這需要一個圖書館,我還不知道。 – J4N