2012-02-17 90 views
1

如何使Apache Tika索引包含子目錄的PDF和文本文件的目錄並將其提交給Apache Solr,以便我可以爲此目錄的內容設置搜索引擎?如何配置Apache Tika和Apache Solr來索引和搜索pdf文件的目錄?

任何建議apprechiated,在Windows或Linux上並不重要。 我還沒有能夠得到這個工作,因爲這兩個項目的文檔主要面向開發人員,這很好,但是,我不能讓他們這樣做,因爲文檔模糊,不夠清晰, Java開發人員。

於是很乾脆:如何構建使用的項目在Apache Lucene的家庭一個搜索引擎,可以索引並提供用於/ home /材料或c搜索:/材料或/ cygdrive/C /材料

非常感謝

回答

2

您熟悉哪種編程語言?

作爲一個Python的傢伙,我將獲得熟悉urllib2,一個HTTP客戶端庫和os模塊,它可以處理文件系統(名單出來目錄中的文件,打開文件指針在文件到Solr張貼)。數據類型set也相關,可用於比較FS和Solr索引中的文檔。

所以,

  1. 學習中豐富的文檔發佈到Solr的(使用Solr的庫或HTTP客戶端庫)
  2. 化妝邏輯檢索Solr的所有文件名和目錄
  3. 上傳所有丟失/改變的文件給Solr。
2

Solr提供ExtractingRequestHandler這有助於索引豐富的文檔。
頁面上列出的示例使用curl將數據提供給Solr。
一個可以遍歷文件夾和子文件夾並執行curl命令的簡單腳本可以爲所有文檔創建一個索引。
如果您使用Solrj的任何客戶端,例如Solrj,您可以輕鬆遍歷目錄並執行http url來爲文檔建立索引。