C＃使用PdfSharp從PDF中提取文本

是否有可能使用PdfSharp從PDF文件中提取純文本？我不想使用iTextSharp，因爲它的許可證。C＃使用PdfSharp從PDF中提取文本

感謝您的回覆。

編輯：我知道這是可能的。但我該怎麼做？

來源

2012-04-13 der_chirurg

想知道，爲什麼downvotes？（有沒有澄清的意見，以幫助作者改善問題。） – 2012-12-11 07:28:01

PDFSharp提供了從PDF中提取文本的所有工具。使用ContentReader類訪問每個頁面內的命令並從TJ/Tj運算符中提取字符串。

我已經上傳了一個簡單的實現github。

來源

2013-08-01 08:36:28

在許多PDF CString.Value返回只是一些垃圾（例如使用OpenOffice.org創建一個PDF，並嘗試使用此方法導入它）。 – 2016-08-20 14:52:29

我已經以某種方式實現了它與David做的相似。這裏是我的代碼：

{ 
     // .... 
     var page = document.Pages[1]; 
     CObject content = ContentReader.ReadContent(page); 
     var extractedText = ExtractText(content); 
     // ... 
    } 

    private IEnumerable<string> ExtractText(CObject cObject) 
    { 
     var textList = new List<string>(); 
     if (cObject is COperator) 
     { 
      var cOperator = cObject as COperator; 
      if (cOperator.OpCode.Name== OpCodeName.Tj.ToString() || 
       cOperator.OpCode.Name == OpCodeName.TJ.ToString()) 
      { 
       foreach (var cOperand in cOperator.Operands) 
       { 
        textList.AddRange(ExtractText(cOperand)); 
       } 
      } 
     } 
     else if (cObject is CSequence) 
     { 
      var cSequence = cObject as CSequence; 
      foreach (var element in cSequence) 
      { 
       textList.AddRange(ExtractText(element)); 
      } 
     } 
     else if (cObject is CString) 
     { 
      var cString = cObject as CString; 
      textList.Add(cString.Value); 
     } 
     return textList; 
    }

來源

2014-05-15 01:02:08 Sergio

你不應該去掉StringBuilder，PDFs是相當大的，這個解決方案會導致巨大的不必要的內存消耗。 – 2016-08-20 14:37:01

拿了Sergio的答案，並取得了一定的擴展方法。我也將字符串的積累變成了一個迭代器。

public static class PdfSharpExtensions 
{ 
    public static IEnumerable<string> ExtractText(this PdfPage page) 
    {  
     var content = ContentReader.ReadContent(page);  
     var text = content.ExtractText(); 
     return text; 
    } 

    public static IEnumerable<string> ExtractText(this CObject cObject) 
    { 
     if (cObject is COperator) 
     { 
      var cOperator = cObject as COperator; 
      if (cOperator.OpCode.Name== OpCodeName.Tj.ToString() || 
       cOperator.OpCode.Name == OpCodeName.TJ.ToString()) 
      { 
       foreach (var cOperand in cOperator.Operands) 
        foreach (var txt in ExtractText(cOperand)) 
         yield return txt; 
      } 
     } 
     else if (cObject is CSequence) 
     { 
      var cSequence = cObject as CSequence; 
      foreach (var element in cSequence) 
       foreach (var txt in ExtractText(element)) 
        yield return txt; 
     } 
     else if (cObject is CString) 
     { 
      var cString = cObject as CString; 
      yield return cString.Value; 
     } 
    } 
}

來源

2014-06-04 19:37:48

我正在使用PDFsharp庫，但它表示ContentReader類不在context.What可能是這個問題？ – 2016-08-31 13:33:25

ContentReader類不在上下文中。 – 2016-09-01 20:42:49

無法抗拒。 IDK意味着什麼或如何解決它。我儘量避免使用PDF，就像瘟疫一樣，因爲與它們一起工作的工具都是廢話，假裝人類可讀的格式是機器可讀的，這完全是愚人節的差事。 – 2016-09-01 20:43:52

C＃使用PdfSharp從PDF中提取文本

回答

相關問題