2011-12-21 92 views
1

我一直在閱讀this但我只是想知道,Solr是否有能力搜索靜態文件(即在內容管理系統或數據庫之外)?可以Solr索引/搜索靜態文件嗎?

我的一些文件只是直線上升HTML ...或服務器端代碼和HTML「塊」 ......

+0

您的意思是上傳豐富的文本文件,如PDF,HTML,文檔?這是http://wiki.apache.org/solr/ExtractingRequestHandler – aitchnyu 2011-12-21 14:08:48

+0

是的,有些是PDF文件...但我也有一些.cfm文件,其中包含HTML塊... – redconservatory 2011-12-21 14:11:48

+0

Indexing ColdFusion標記?你有一點解釋要做,先生! Solr將索引「他是一個以自我爲中心的jack」「和」he = self :: center(++ jackass)「**完全相同的方式:從標點符號(標記化)中提取單詞,刪除停用詞,然後查找每個詞的詞根(詞幹)並將其用於查詢。你想要一個像Nullege這樣的項目嗎?或者管理代碼回購? TortoiseHG,一個mercurial GUI對此很有幫助。 – aitchnyu 2011-12-21 16:40:20

回答

2

SOLR可以索引任何文字輸入。重要的是,它索引文本。所以如果你的靜態文件不是文本文件,你可能需要先通過一個工具如Tika運行它們。然後SolR應該沒有問題索引提取的文本數據。