2017-09-27 73 views
0

我是Apache Solr搜索技術的新手,希望瞭解如何爲某個文件夾下的多個PDF文件建立索引。Apache Solr - 索引具有特定頁碼的PDF文件的文件夾

目前我已經在單獨的服務器上安裝了Solr 6.6.1。它按預期正常工作。

請將我重定向到一些文章或教程有一些步驟來實現這件事。我想在文件夾下的所有PDF文件中搜索一些文本文字,而不指定文件名。例如,文本搜索應該發生在特定頁面號上的所有文件夾文件中。

例如,我想在第5頁的文件夾下的所有PDF文件中搜索單詞「Partner」。

回答

0

最後,我在閱讀了Apache Solr站點的文檔以及它的簡單方法之後找到了方法。最好和更簡單的方法是使用「數據導入處理程序」的方式。配置文件的名稱是data-config.xml

<dataConfig> 
    <dataSource type="BinFileDataSource"/> <!--Local filesystem--> 
    <document> 
    <entity name="K1FileEntity" processor="FileListEntityProcessor" dataSource="null" 
      baseDir="C:/solr-6.6.1/server/solr/core_myfiles_Depot/Depot" fileName=".*pdf" rootEntity="false"> 

      <field column="file" name="id"/> 
      <field column="fileAbsolutePath" name="path" /> 
      <field column="fileSize" name="size" /> 
      <field column="fileLastModified" name="lastmodified" /> 

       <entity name="pdf" processor="TikaEntityProcessor" onError="skip" 
         url="${K1FileEntity.fileAbsolutePath}" format="text"> 

       <field column="Author" name="author" meta="true"/> 
       <!-- in the original PDF, the Author meta-field name is upper-cased, 
        but in Solr schema it is lower-cased --> 

       <field column="title" name="title" meta="true"/> 
       <field column="dc:format" name="format" meta="true"/> 
       <field column="text" name="text"/> 

       </entity> 
    </entity> 
    </document> 
</dataConfig>