使用FieldBridges實現Lucene分析器

我想以一種與FieldBridges和手動搜索相配的方式實現lucene分析器。理想情況下，我希望儘可能少的代碼重複。使用FieldBridges實現Lucene分析器

我知道大多數教程都告訴你用@AnalyzerDef註解來初始化你的分析器，而當我做到了這一點，並且讓所有的工作都成功的時候，我無法使FieldBridges中創建的字段能夠尊重分析器。（使用luceneoptions.addFieldToDocument創建）。

我試圖找到另一種方式做到這一點，但文件是稀疏的。

這就是我想出了（保持這個職位短一些代碼的緣故經過編輯，但我將發佈更多，如果要求。）：

創建分析：

public static org.apache.lucene.analysis.Analyzer getEnglishWordAnalyser() { 
     org.apache.lucene.analysis.Analyzer analyser = null; 

     try { 
      analyser = CustomAnalyzer.builder() 
        .addCharFilter(HTMLStripCharFilterFactory.class) 
        .addCharFilter(MappingCharFilterFactory.class, getMappingSettings()) 
        .withTokenizer(StandardTokenizerFactory.class) 
        .addTokenFilter(StandardFilterFactory.class) 
        .addTokenFilter(LowerCaseFilterFactory.class) 
        .addTokenFilter(SnowballPorterFilterFactory.class, getSnowballPorterSettings()) 
        .addTokenFilter(SynonymFilterFactory.class, getSynonymSettings()) 
        .addTokenFilter(ASCIIFoldingFilterFactory.class) 
        .addTokenFilter(PhoneticFilterFactory.class, getPhoneticSettings()) 
        .addTokenFilter(StopFilterFactory.class, getStopSettings()) 
        .build(); 

     } catch (IOException ex) { 
      logger.info("[SearchConfig] [englishWordAnalyser] Failed to create components", ex); 
     } 

     return analyser; 
    }

創建場分析：

protected StringField createStringField(String name, String value, LuceneOptions luceneOptions) { 
     final StringField field = new StringField(name, value, luceneOptions.getStore()); 

     final Analyzer analyzer = SearchConfig.getEnglishWordAnalyser(); 

     try { 
      final TokenStream tokenStream = analyzer.tokenStream(name, new StringReader(value)); 
      tokenStream.reset(); 

      field.setBoost(luceneOptions.getBoost()); 
      field.setTokenStream(tokenStream); 
      field.setStringValue(value); 

      tokenStream.end(); 
      tokenStream.close(); 
     } catch (IOException e) { 
      e.printStackTrace(); 
     } 

     analyzer.close(); 
     return field; 
    }

從FieldBridge添加一個新的領域：

createStringField("NAME", "VALUE", luceneOptions);

我也希望能夠創造一個MultiFieldQueryParser這樣當使用這種分析儀：

final QueryParser parser = new MultiFieldQueryParser(getClassLuceneFields(clazz), getEnglishWordAnalyser());

現在我測試的分析與MultiFieldQueryParser，它似乎工作得很好，但是當FieldBridges是被索引它伸出與此錯誤：

java.lang.IllegalArgumentException: TokenStream fields must be indexed and tokenized

這是在setTokenStream上的createStringField中引起的。

有沒有人有任何想法？

我可能完全走錯了方向，如果是這樣，有沒有人有任何替代方案也適合我的用例。

乾杯

來源

2017-04-06 Headchopperz

我很擔心這不是Lucene的工作原理。 Lucene希望您在其字段中構建具有未分析值的文檔，並且在將文檔放入索引時將負責分析文檔。

Hibernate Search負責設置正確的配置，以便Lucene知道每個字段使用哪個分析器。碰巧，這很容易配置爲標準@Field字段（@Field(analyzer = ...)），但不適用於在現場橋樑中添加的字段。

目前，最簡單的解決方案將是第in this blog post號分析器鑑別器。這不是分析儀鑑別器的預期目的，但它會起作用。

基本上你將有：

定義使用@AnalyzerDef像往常一樣

產生一個分析儀鑑別你的域映射到相應的分析定義分析：

public class MyDiscriminator implements Discriminator { 
    public String getAnalyzerDefinitionName(Object value, Object entity, String fieldName) { 
     switch (fieldName) { 
     case "foo": 
      return "analyzerNameForFieldFoo"; 
     case "bar": 
      return "analyzerNameForFieldBar"; 
     default: 
      return null; // Use the default analyzer 
     } 
    } 
}

應用鑑別器到您的實體：

@Indexed 
@Entity 
@AnalyzerDiscriminator(impl = MyDiscriminator.class) 
public class MyEntity { 
    // ... 
}

請參閱here瞭解關於分析儀鑑別器的更多文檔。

來源

2017-04-07 07:22:44

Thankyou Yoann，它的工作原理 – Headchopperz

使用FieldBridges實現Lucene分析器

回答

相關問題