我想刪除不需要的詞,並使用詞幹,最後創建帶狀皰疹。然而,在取消停用詞之後,它給了我一個「_」代替停用詞的帶狀皰疹。 我試圖使用PatternReplaceFactory替換_但它不工作。我有如下字段類型:solr詞幹,停止詞和帶狀皰疹沒有給出預期的輸出
<fieldType name="common_shingle" class="solr.TextField">
<analyzer type="index">
<charFilter class="solr.HTMLStripCharFilterFactory"/>
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.PorterStemFilterFactory"/>
<filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>
<filter class="solr.PatternReplaceFilterFactory" pattern=".*_.*" replacement=""/>
<filter class="solr.ShingleFilterFactory" outputUnigrams="false" minShingleSize="3" maxShingleSize="3"/>
</analyzer>
</fieldType>
當我分析了「A棕色狐狸跳過迅速通過懶狗」。它給了我下面的結果:
- _棕色狐狸
- 棕色狐狸quickli
- 狐狸quickli跳
- quickli跳_
- 跳_
- _落子
- _落子狗
我該如何移除_來自小屋標記。另外,是否有一種方法只能從停用詞創建帶狀皰疹?
請參閱http://stackoverflow.com/questions/28459949/solr-stop-words-replaced-with-symbol以及 – Marco