2016-09-19 41 views
0

我試圖從PDF中提取文本。首先我試着用PDFBox。在輸出時,我發現,文字的某部分缺失和Eclipse控制檯上我得到了以下警告從PDF手動複製和粘貼文本時輸出的正方形/點/空白

沒有Unicode映射CID + 49(49)在字體黑體

我想知道上述警告意味着什麼。我用Google搜索瞭解其含義。但是我仍然不清楚。如果有人提供了一個明確的解釋,這將會非常有幫助。

對於同樣的PDF,當我手動複製並粘貼PDF文本時,我得到了正方形或圓點形狀。我想知道爲什麼會發生這種情況。請解釋。

+0

請參閱這裏的意見https://stackoverflow.com/questions/39324398/issue-with-reading-some-unicode-characters-out-of-a-pdf-using-pdfbox –

+0

本質上的信息在有關字體的pdf中,除非基於ocr,否則對於文本提取來說太缺乏。 – mkl

回答

0

你可以嘗試使用org.apache.pdfbox.text.PDFTextStripper包,它有一個方法可以自動返回你pdf文檔中的所有文本。 String getText(PDDocument doc)方法可以幫助你很大。請點擊此鏈接查看API PDF TextStripper。希望它會幫助

+0

是的,我試了。僅從這種方法來看,我錯過了最終輸出中的部分文本。 – sagar

+0

這個答案沒有幫助,他顯然使用了PDFTextStripper。 –

+0

可能是你應該嘗試深入Api的東西,可以幫助你更好 –