2010-06-18 39 views

回答

6

嗯,首先規定Tokenizer,第二提供Filter ;-)

既然你只能有一個標記生成器,EdgeNGramTokenizerFactory只包含一個字領域是有用的。如果您想要將爲文檔提供的字符串分隔爲單詞,則首先需要使用不同的Tokenizer,然後再分割空白或其他東西,然後再使用EdgeNGramFilterFactory。