2
A
回答
1
看看PDFMiner。它可以很容易地做你想做的事。此外,請搜索類似的問題,因爲這是一個可能的欺騙:Python module for converting PDF to text
2
我們使用Swish-e爲我們的網站編制索引,其中包括成千上萬的PDF,Word文件甚至WordPerfect文件。它效果很好。它是免費的,開源的,並與PHP集成得很好。
從他們的主頁:
沙沙-e是用於索引網頁或其他 文件 集合了快速,靈活和自由 開源系統。 Swish-e非常適合用於收集百萬份文件或 較小的 。使用GNOME™libxml2 解析器和一組過濾器, Swish-e可以索引純文本,電子郵件,PDF,HTML,XML,Microsoft® Word/PowerPoint/Excel和約 任何可以轉換爲XML 或HTML文本。 Swish-e也經常用於補充數據庫,如用於非常快速的全文搜索的MySQL®DBMS數據庫 。
相關問題
- 1. 索引/搜索PDF內容使用Solr
- 2. Drupal 7索引pdf文件搜索
- 3. 在python中搜索索引
- 4. 使用C#搜索OCR(可搜索)PDF
- 5. 索引聊天記錄並在Django中搜索它
- 6. Sitecore索引搜索
- 7. SQL索引搜索
- 8. Sphinx搜索索引
- 9. SQL索引搜索
- 10. Cloudant搜索索引
- 11. 索爾索引與搜索
- 12. 搜索API彈性搜索索引
- 13. Azure搜索索引 - 搜索確切詞
- 14. 文本搜索PDF
- 15. 如何搜索PDF?
- 16. 在Hibernate搜索中索引數據
- 17. 在lucene索引中搜索「AND」
- 18. 索引在輸出中搜索extbase htmltags
- 19. 在hadoop中索引和搜索
- 20. 在solr4中編制索引PDF在搜索中沒有文檔返回
- 21. 搜索引擎中的倒排索引
- 22. 根據字數搜索多個pdf文件中的單詞和索引pdf
- 23. 同時在彈性搜索中索引多個索引
- 24. 做搜索引擎讀取<!-- -->,是它detremental搜索結果
- 25. App Engine搜索:如何並行搜索多個搜索索引?
- 26. 索引的PDF文件沒有通過谷歌搜索返回
- 27. 調用從shell腳本彈性搜索索引pdf文檔
- 28. 以編程方式閱讀PDF嵌入式搜索索引
- 29. 中的R陣列搜索元素和它們的索引
- 30. 索引pdf文檔