0
我想索引掃描的PDF文件。我已經在Centos 6上安裝了Solr 6.3.0,tesseract 3.04,leptonica 1.74我已經根據documentation配置了我的solrconfig。Apache Solr不索引掃描的PDF
我已經測試了tesseract和solr的png,jpg,並且每件事情都很好看。但是當我嘗試索引掃描的PDF文件時,Solr沒有索引掃描圖像,只提取pdf註釋消息(sample document)。 (DefaultParser和PDFParser根據索引響應使用)
之後,我谷歌搜索的問題,我發現這solution(我測試過,它的工作原理!),但我無法轉換Java代碼爲Xml配置。我應該如何將該java代碼設置爲Xml配置文件?
任何幫助將是偉大的!