2017-04-11 85 views
0

我得到下面的輸出後,我在SOLRICUTransformFilter在SOLR

สวัสดี配置ICUTransformFilter轉化爲s̄wạs̄dī 無法理解也將其轉換爲哪個腳本?我在架構配置看起來像下面

<analyzer type="index"> 
    <tokenizer class="solr.ICUTokenizerFactory"/> 
    <filter class="solr.ICUTransformFilterFactory" id="Thai-Latin" /> 
    <filter class="solr.ICUTransformFilterFactory" id="NFD; [:Nonspacing Mark:] Remove; NFC" /> 
    <filter class="solr.BeiderMorseFilterFactory" /> 
</analyzer> 

它說,泰國拉丁,但是當我使用谷歌翻譯器將其轉換爲「奴」 enter image description here

回答

1

這似乎是從my Thai example複製,其中的序列分析儀已被解釋。該配置用於搜索「sawadika」之類的內容,並獲取包含原始單詞的實際泰語文本,該單詞聽起來像是(女性發起的)問候語。

你似乎在翻譯(泰語到拼音匹配/關閉拉丁語)時會混淆翻譯(泰語到谷歌翻譯中的英語)。音譯就是這裏發生的事情(實際上Google也是這樣)。總之,在第一臺分析儀之後,你仍然有色調標記,試圖顯示泰語所具有的升/降等音調。第二個分析儀應該將它們移除以得到swasdi。最後的分析器會做一些語音擴展來匹配其他替代拼寫。

+0

有沒有一種方法或例子,其中ICUTokenizer可以作爲java程序運行 – user2478236

+0

http://stackoverflow.com/questions/43377330/tokenize-thai-sentence-with-icutokenizer-java/43450726#43450726 – user2478236