2012-02-15 63 views
1

我對使用數字和符號索引項目名稱有問題。我的數據的樣本如下:什麼是合適的lucene分析器使用?

ANGLE BARS ORANGE - 4.0MM 2 - 1/2" 
B.I SQUARE TUBING  2" X 3" 
B.I. PIPE S-40 10MM 3/8" 
B.I SQUARE TUBING  1" X 2" 
PLYWOOD MARINE 3/4X4X8 
PLYWOOD STA. CLARA 1/8X4X8 
PLYWOOD STA. CLARA 3/16X4X8 

我想我的記號化白色或尾隨空格的數據不會丟失的符號,因爲這些符號是非常必要的。所以無論何時我搜索「膠合板sta。clara」,「b.i square 2」X 3「」或「angle orange 2 - 1/2」都會給我一個結果。我試圖使用空白分析器,但符號被刪除。我也嘗試過標準分析器,但是停用詞和符號也被放棄了。什麼是最好的分析器來代替?

回答

3

您可以通過編寫正則表達式或創建Custom Analyzer.

+0

我會在搜索時也使用PatternAnalyzer使用PatternAnalyzer? – maccramers 2012-02-15 13:09:03

+0

是的。您應該在索引和搜索時使用相同的分析儀。 – 2012-02-15 13:43:08

0

嘗試使用org.apache.lucene.analysis.miscellaneous.PatternAnalyzer。您可以提供正則表達式來定義令牌分隔符。

相關問題