在Solr中組合多個標記器

我試圖將LetterTokenizerFactory與WhitespaceTokenizerFactory組合起來，並且無法找到如何使用copyField複製內容的方法。在Solr中組合多個標記器

讓我描述了我的想法：

我怎麼能實現它不宣而2種不同類型具有不同的標記生成器工廠，然後複製值至第二種類型的字段？

2017-07-27 bsiamionau

您可以使用WhitespaceTokenizerFactory作爲主標記化器，然後添加WordDelimiterGraphFilter將您的標記進一步分割爲更小的標記。

從已WordDelimiterGraphFilter的例子（以前稱爲WordDelimiterFilter，但現在這是過時 - 這樣的名稱將取決於Solr的版本，您正在使用）：

非字母數字字符（丟棄）：「熱點「 - >」熱點「，」點「

這將允許packard匹配hewlett。請注意，這也將允許'm'匹配h&m，因爲您正在分割非字母數字字符。您可以使用過濾器的protected設置來指定不應觸及的單詞列表，或者如果您希望&保持不變，請使用types參數重新定義&應視爲哪種類型。

2017-07-27 12:15:29 MatsLindh

謝謝，它可以工作！但我希望能找到一種方法，即使我沒有指定任何特殊的符號，也總是有特殊字符的額外原始標記。例如「熱點」 - >「熱點」，「點」，「熱點」; 「h＆m」 - >「h」，「m」，「h＆m」等。 – bsiamionau

我剛纔注意到'preserveOriginal'選項保留原始值作爲標記 – bsiamionau

回答