2013-04-23 65 views

回答

0

文本提取器zachron/pdfiphone(我假定你的意思是一個)是非常天真的,並做出很多假設。

  • 它忽略了PDF文件結構,因此完全忽略了它檢查的數據是否仍在當前版本中使用。

  • 它忽略加密,因此會對許多具有使用限制的文檔完全失敗。

  • 它完全忽略了字體編碼,並隱含地假定了一個ASCII'ish ---這在小型PDF中僅適用於英文而不是嵌入式字體;否則結果可能是任何事情。

  • ...很多很多的假設......

除非一個人只需要處理非常簡單的文件和提取的文本不是一個人的代碼的功能真的有必要,我會建議使用不同的代碼進行文本提取。