是否可以使用任何編程語言在PDF中搜索特定的字符串,而無需將其轉換爲文本或doc文件。我想直接搜索一個字符串而不轉換它,我試圖將其轉換爲文本,然後搜索字符串,但它給了我錯誤的結果。如何使用任何編程語言直接在PDF中搜索字符串
謝謝! 金
是否可以使用任何編程語言在PDF中搜索特定的字符串,而無需將其轉換爲文本或doc文件。我想直接搜索一個字符串而不轉換它,我試圖將其轉換爲文本,然後搜索字符串,但它給了我錯誤的結果。如何使用任何編程語言直接在PDF中搜索字符串
謝謝! 金
1)創建自己的PDF「分析器」:
http://www.quick-pdf.com/pdf-specification.htm
大概可能是最小的,如果你只需要文本數據,而不是任何的格式。
2)用你自己的語言找到一個能「本地」閱讀.pdf的庫(其中有很多)。
3)使用預建的工具(如pdf2text或pdfgrep):https://unix.stackexchange.com/questions/6704/grep-pdf-files
如果你的要求是搜索一個詞,並取代它,你可以去Aspose.pdf.Kit
Poppler包含的工具從pdf文檔中提取文本。用它來搜索文檔。
Docotic.Pdf library可用於您的任務。請參閱我的answer for similar question。
聲明:我爲開發Docotic.Pdf庫的公司工作。
在Java和C#中,如果PDF文件沒有鎖定,可以使用iText來完成。