2017-03-10 48 views
0

我試圖使用後的Windows版本索引文檔,使用命令狀波紋管:如何將文檔內容存儲在Solr 6.4中?

java -Dc=docs -Dauto=yes -Dc=docs -Ddata=files -Drecursive=yes -jar 
post.jar C:\docs 

我可以看到文檔索引正確,但我希望存儲提取的文本使用突出。我說我喜歡的託管架構領域:

<field name="text" type="text_general" multiValued="true" indexed="true" stored="true"/> 
<field name="source" type="text_general" multiValued="true" indexed="true" stored="true"/> 
<field name="content" type="text_general" multiValued="true" indexed="true" stored="true"/> 
<field name="content" type="strings"/> 

,但它不工作,我不能在我的文檔搜索的內容返回。如何存儲從doc,docx,pdf文件中提取的文本並將其返回到我的查詢中?

+0

沒有得到你在找什麼。您在結果中突出顯示查詢詞時遇到問題。 ? – vinod

+0

據我所知,我需要存儲提取的文本來使用突出顯示。所以,我的問題是,我不知道如何檢索文檔的內容並使Solr存儲它。對不起,如果有什麼不清楚,但我是Solr的新手,我不知道它是如何工作的。 – Damian

回答

0

斌/後(不知道post.jar,但我相信這樣也)會告訴你鍵入它確定的每個文件以及它提交給什麼處理程序。

例如,MSWord,PDF等都是去/提取處理程序,它使用Tika提取內容。

然後,如果你在solrconfig.xml中查找/提取處理器的定義,你會看到告訴你參數如何將提取的內容,其中包括字段的名稱映射。然後,您可以將這些字段存儲並重新索引。

0

post.jar將執行索引操作。所以當你索引任何文檔(有一個選項可以設置爲真/假來將內容存儲在schema.xml文件中)時,你可以搜索它的內容。

只有存儲它時,纔可以使用高亮顯示。

檢查這個Link瞭解如何索引,搜索完成

+0

感謝您的回答。我知道我必須將_stored_選項設置爲_true_,但我不確定在哪個字段中。我試圖存儲_text_,'_text_',_source_,_content_等字段,但文檔中沒有文本,但是索引正確。你知道哪個字段包含處理文檔中的所有內容嗎? – Damian

+0

檢查「內容」字段。設置殭屍索引和存儲=真正的內容。你會更好地理解它。重新啓動solr,reindex文件和搜索(不要忘記這一步重新啓動和reindex)。 upvote或接受我的答案,如果你覺得有用。乾杯。 – vinod