2011-11-16 77 views
1

哪個分詞器是適合這樣做:正確的Solr分詞器來標記文本,同時保留特殊字符

input: "This-something is something." 
output: ["] [This] [-] [something] [is] [something] [.] ["] 

我試圖與solr.WordDelimiterFilterFactory,但這刪除所有特殊字符。也試過solr.KeepWordFilterFactory,所有特殊字符在keepwords.txt。但是這也行不通。

有什麼建議嗎?我在Solr 3.4上。

回答

2

不要以爲您的特定要求有一個開箱即用的Tokenizer。
您可以創建一個新的特定要求,並輕鬆讓Solr使用它。

+0

感謝您的建議。我最終編寫了一個自定義的過濾器並作爲插件導入Solr。運作良好。謝謝!如果有人有相同的問題:http://e-mats.org/2008/06/writing-a-solr-analysis-filter-plugin/ –

相關問題