我有一個我想要搜索的URL數據庫。由於網址並不總是相同(可能有或沒有www),我正在尋找正確的方法來索引和查詢網址。 我已經嘗試了一些東西,我覺得我很接近,但不知道爲什麼它不工作:索引和查詢Solr中的URL
這裏是我的自定義字段類型:
<fieldType name="customUrlType" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="0" preserveOriginal="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="0" preserveOriginal="0"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>
例如:
http://www.twitter.com/AndersonCooper索引時,會在不同的位置下面的話:HTTP,WWW,嘰嘰喳喳,玉米,安德森·庫珀
如果我要尋找的只是twitter.com/andersoncooper,我想這個查詢匹配的是索引記錄, 這就是爲什麼我也使用WDF來分割搜索查詢 但是搜索查詢最終如下所示:
myfield :(「twitter com andersoncooper」)當真的希望它匹配具有以下所有內容的所有記錄時字:twitter com andersoncooper
是否有一個不同的查詢過濾器或標記器我應該使用?
您是否曾經最終將這個問題整理出來? – Cyrus 2011-09-13 06:59:54
你認爲我們需要在這裏做什麼? – 2014-03-28 16:10:10