在Net Core中解析pdf

我是一個Asp.Net核心項目。這個項目引用另一個庫，我應該從pdf中提取信息。我正在使用itextsharp，但它似乎與.net核心不兼容。在Net Core中解析pdf

任何想法如何從PDF文件中提取文本？

來源

2017-04-18 J4N

如果你在這裏問這個問題，我們可以爲第三方庫的建議：HTTP：// softwarerecs .stackexchange.com/ –

我投票結束這個問題作爲題外話，因爲它應該在軟件建議 – VMAtm

@VMAtm如果沒有第三方庫，最好能夠做到這一點。如果這是我通過圖書館做的唯一方法。但我的問題不是關於在單獨的庫（或「最好的庫」）之間進行選擇。我的問題是如何去做。也許這需要一個圖書館，我還不知道。 – J4N

如果你想編寫自己的pdf解析器，你需要閱讀所有不同版本的pdf文件格式。他們都是正式記錄的here。

來源

2017-04-19 14:00:13 Bobby

我並不認爲這很複雜。有不同版本的修訂版本很多，PDF包含1310頁，我無法閱讀所有這些（也沒有實現所有這些版本）不是最簡單的方法嗎？我只是試圖從PDF中獲取一些文本... – J4N

對於遲到的回覆感到抱歉，但不幸的是，沒有更簡單的方法，只能使用已由其他人編寫的庫。你可能會寫一半隻能讀取文本字段的解析器，但你仍然需要考慮格式的不同版本。這是除非你絕對確定你的解析器將閱讀的pdf將是一個確切的版本。另外，還有一點需要注意的是，有時候文本不會以pdf的形式存儲，而是以圖像形式存儲。 – Bobby

從PDF中提取文本是一項複雜的任務。如果沒有圖書館，我不會推薦你這樣做。

對於Asp.Net核心庫，我可以推薦你Docotic.Pdf library（我爲供應商工作）。庫supports .NET Standard，可以用來提取不僅文本，但路徑和圖像。

下面是一些樣本：

來源

2017-04-19 19:17:06 Bobrovsky

謝謝你的回答，但它是一個非常小的開源項目，我在我的空閒時間，我無法承受你的許可證:( – J4N

看看https://github.com/VahidN/iTextSharp。 LGPLv2.Core –

在Net Core中解析pdf

回答

相關問題