2017-01-16 81 views
0

我想索引掃描的PDF文件。我已經在Centos 6上安裝了Solr 6.3.0,tesseract 3.04,leptonica 1.74我已經根據documentation配置了我的solrconfig。Apache Solr不索引掃描的PDF

我已經測試了tesseract和solr的png,jpg,並且每件事情都很好看。但是當我嘗試索引掃描的PDF文件時,Solr沒有索引掃描圖像,只提取pdf註釋消息(sample document)。 (DefaultParser和PDFParser根據索引響應使用)

之後,我谷歌搜索的問題,我發現這solution(我測試過,它的工作原理!),但我無法轉換Java代碼爲Xml配置。我應該如何將該java代碼設置爲Xml配置文件?

任何幫助將是偉大的!

回答

0

您可以使用Lucene 3.0來索引和搜索掃描的pdf文件。我已經完成使用Lucene 3.0索引掃描的pdf文件並在掃描的pdf中搜索最頻繁重複的文字。