從PDF手動複製和粘貼文本時輸出的正方形/點/空白

我試圖從PDF中提取文本。首先我試着用PDFBox。在輸出時，我發現，文字的某部分缺失和Eclipse控制檯上我得到了以下警告從PDF手動複製和粘貼文本時輸出的正方形/點/空白

沒有Unicode映射CID + 49（49）在字體黑體

我想知道上述警告意味着什麼。我用Google搜索瞭解其含義。但是我仍然不清楚。如果有人提供了一個明確的解釋，這將會非常有幫助。

對於同樣的PDF，當我手動複製並粘貼PDF文本時，我得到了正方形或圓點形狀。我想知道爲什麼會發生這種情況。請解釋。

2016-09-19 sagar

請參閱這裏的意見https://stackoverflow.com/questions/39324398/issue-with-reading-some-unicode-characters-out-of-a-pdf-using-pdfbox –

本質上的信息在有關字體的pdf中，除非基於ocr，否則對於文本提取來說太缺乏。 – mkl

你可以嘗試使用org.apache.pdfbox.text.PDFTextStripper包，它有一個方法可以自動返回你pdf文檔中的所有文本。 String getText(PDDocument doc)方法可以幫助你很大。請點擊此鏈接查看API PDF TextStripper。希望它會幫助

來源

2016-09-19 09:36:38

是的，我試了。僅從這種方法來看，我錯過了最終輸出中的部分文本。 – sagar

這個答案沒有幫助，他顯然使用了PDFTextStripper。 –

可能是你應該嘗試深入Api的東西，可以幫助你更好 –

從PDF手動複製和粘貼文本時輸出的正方形/點/空白

回答

相關問題