我使用的是itext 5.3.4從PDF文件中提取文本。我正在使用的代碼如下:通過iText提取PDF文本返回奇怪字符
PdfReaderContentParser parser = new PdfReaderContentParser(pdfReader);
TextExtractionStrategy strategy;
StringBuffer sb = new StringBuffer();
for (int i = 1; i <= pdfReader.getNumberOfPages(); i++)
{
strategy = parser.processContent(i, new SimpleTextExtractionStrategy());
sb.append(strategy.getResultantText());
}
String text = sb.toString();
然而,對於特定的PDF,ë返回爲°。任何想法爲什麼會發生這種情況,以及可以做些什麼?這是在itext庫中的錯誤還是在構建PDF時出現錯誤?
感謝您的協助。
首先要測試的東西 - 不用擔心,這很簡單 - 就是用Acrobat Reader複製文本並粘貼到別處。如果Acrobat Reader無法忠實地閱讀文本,則問題出現在PDF中的可能性很高。 – usr2564301
還有一件事要做:請更新。 5.3.x版本是文本提取代碼發生變化的時候。 – mkl
請參閱http://stackoverflow.com/a/32929474/1520650以獲取類似問題以及此行爲的可能解釋。 – rhens