有從PDF提取文本的好庫嗎?如果必須的話,我願意付錢。什麼是使用C#或經典ASP(VBScript)從PDF中提取文本的好方法?
與C#或傳統ASP(VBScript)一起工作的東西將是理想的,我也需要能夠將頁面與PDF分開。
This question有一些有趣的東西,特別是pdftotext但我想避免調用外部命令行應用程序,如果我可以。
有從PDF提取文本的好庫嗎?如果必須的話,我願意付錢。什麼是使用C#或經典ASP(VBScript)從PDF中提取文本的好方法?
與C#或傳統ASP(VBScript)一起工作的東西將是理想的,我也需要能夠將頁面與PDF分開。
This question有一些有趣的東西,特別是pdftotext但我想避免調用外部命令行應用程序,如果我可以。
您可以使用Windows內置的IFilter接口從任何支持的文件類型中提取文本和屬性(作者,標題等)。這是一個COM接口,所以你可以使用.NET interop工具。
您還必須從Adobe下載免費的PDF IFilter驅動程序。
這裏是一個很好的列表: Open Source Libs for PDF/C#
大多數的這些都是爲了向創建PDF,但他們應該已經閱讀能力以及。
有這一個還有:iText
我只用iText的前播放。沒什麼大不了
我們使用Aspose,效果不錯。
Docotic.Pdf library可用於從PDF文檔中提取格式化或純文本。
該庫可以讀取任何版本的PDF文檔(達到最新公佈的標準)。庫的提取也支持。
鏈接示例代碼:
聲明:我在圖書館的供應商合作。
添加到批准的答案:有交替的商業解決方案,以替代的Adobe IFilter的文本索引(提供類似的API,而且還要附加保費的功能):
如果你正在尋找一個工具,可以從兩個託管的.NET應用程序和繼承的編程語言像傳統的ASP或VB6中使用,那麼這是在商業ByteScout PDF Extractor SDK將適合,因爲它同時提供了.NET和ActiveX/COM API。
聲明:我爲ByteScout工作