2009-10-08 91 views
1

我運行FAST ESP服務器上的搜索應用程序。現在我遇到了字符規範化的問題。FAST ESP字符規範化

我要的是尋找「伍爾特」並獲得「伍爾特」一炮打響。

我試過配置在ESP以下的/ etc /標記者/ tokenization.xml

<normalizationlist name="German to Norwegian"> 
    <normalization description="German u with diaeresis, to Norwegian u"> 
     <input>x75</input> 
     <output>xFC</output> 
     <output>x75</output> 
    </normalization> 
    </normalizationlist> 

但賽道,這把所有u到U,這是無用的。

如何配置的正確方法?

回答

1

解決方法是將每個「特殊字符」歸一化爲相同的「正常字符」;

ö - > 0 ø - > 0 A - >一個 A - >一個 AE - >一

這是有點費時,但它的工程!

0

閱讀無所謂高級物流指南。它包含了關於字符標準化的一章。當您按照指南中的步驟操作時,所有特殊字符將被視爲普通字符。因此,尋找über的結果與尋找優步時的結果相同。

+2

你不是指高級語言學指南? – darasd 2012-02-15 16:40:54

0

此外,您可以安裝MS支持提供的自定義字典,然後可以提供每種語言的字典。所以,如果你安裝了德語,那麼搜索引擎就會明白你想搜索什麼,用您的意思是否功能。安裝完字典後,您可以啓用搜索查詢。另外,不要忘記正確設置搜索模式並使用正確的字符編碼來支持多語言。如果集合中的文檔不正確的字符編碼索引的任何努力,你在做標記化和查詢結束是沒用的。