是否有可能使用PdfSharp從PDF文件中提取純文本? 我不想使用iTextSharp,因爲它的許可證。C#使用PdfSharp從PDF中提取文本
感謝您的回覆。
編輯:我知道這是可能的。但我該怎麼做?
是否有可能使用PdfSharp從PDF文件中提取純文本? 我不想使用iTextSharp,因爲它的許可證。C#使用PdfSharp從PDF中提取文本
感謝您的回覆。
編輯:我知道這是可能的。但我該怎麼做?
PDFSharp提供了從PDF中提取文本的所有工具。使用ContentReader
類訪問每個頁面內的命令並從TJ/Tj運算符中提取字符串。
我已經上傳了一個簡單的實現github。
在許多PDF CString.Value返回只是一些垃圾(例如使用OpenOffice.org創建一個PDF,並嘗試使用此方法導入它)。 – 2016-08-20 14:52:29
我已經以某種方式實現了它與David做的相似。 這裏是我的代碼:
{
// ....
var page = document.Pages[1];
CObject content = ContentReader.ReadContent(page);
var extractedText = ExtractText(content);
// ...
}
private IEnumerable<string> ExtractText(CObject cObject)
{
var textList = new List<string>();
if (cObject is COperator)
{
var cOperator = cObject as COperator;
if (cOperator.OpCode.Name== OpCodeName.Tj.ToString() ||
cOperator.OpCode.Name == OpCodeName.TJ.ToString())
{
foreach (var cOperand in cOperator.Operands)
{
textList.AddRange(ExtractText(cOperand));
}
}
}
else if (cObject is CSequence)
{
var cSequence = cObject as CSequence;
foreach (var element in cSequence)
{
textList.AddRange(ExtractText(element));
}
}
else if (cObject is CString)
{
var cString = cObject as CString;
textList.Add(cString.Value);
}
return textList;
}
你不應該去掉StringBuilder,PDFs是相當大的,這個解決方案會導致巨大的不必要的內存消耗。 – 2016-08-20 14:37:01
拿了Sergio的答案,並取得了一定的擴展方法。我也將字符串的積累變成了一個迭代器。
public static class PdfSharpExtensions
{
public static IEnumerable<string> ExtractText(this PdfPage page)
{
var content = ContentReader.ReadContent(page);
var text = content.ExtractText();
return text;
}
public static IEnumerable<string> ExtractText(this CObject cObject)
{
if (cObject is COperator)
{
var cOperator = cObject as COperator;
if (cOperator.OpCode.Name== OpCodeName.Tj.ToString() ||
cOperator.OpCode.Name == OpCodeName.TJ.ToString())
{
foreach (var cOperand in cOperator.Operands)
foreach (var txt in ExtractText(cOperand))
yield return txt;
}
}
else if (cObject is CSequence)
{
var cSequence = cObject as CSequence;
foreach (var element in cSequence)
foreach (var txt in ExtractText(element))
yield return txt;
}
else if (cObject is CString)
{
var cString = cObject as CString;
yield return cString.Value;
}
}
}
我正在使用PDFsharp庫,但它表示ContentReader類不在context.What可能是這個問題? – 2016-08-31 13:33:25
ContentReader類不在上下文中。 – 2016-09-01 20:42:49
無法抗拒。 IDK意味着什麼或如何解決它。我儘量避免使用PDF,就像瘟疫一樣,因爲與它們一起工作的工具都是廢話,假裝人類可讀的格式是機器可讀的,這完全是愚人節的差事。 – 2016-09-01 20:43:52
想知道,爲什麼downvotes? (有沒有澄清的意見,以幫助作者改善問題。) – 2012-12-11 07:28:01