2012-03-20 61 views
0

這個問題被超級用戶詢問,但在7天內只有8個意見。 Hunspell知識淵博的人去了stackoverflow,因此我在這裏問題的問題。在hunspell輸入中的特殊字符被視爲空間


我正在用瑞典語字典在命令行中測試hunspell。 交互模式下的輸入在拼寫前用空白替換所有特殊字符(例如åäö)。

Hunspell 1.3.2 
sjögräs 
& sj 15 0: SJ, aj, dj, sk, s, j, sej, sju, sjö, sjå, sa, se, ej, st, si 
& gr 15 3: ge, g, r, ger, gir, gro, gör, grå, går, gry, er, nr, dr, go, kr 
* 

sj gr s 
& sj 15 0: SJ, aj, dj, sk, s, j, sej, sju, sjö, sjå, sa, se, ej, st, si 
& gr 15 3: ge, g, r, ger, gir, gro, gör, grå, går, gry, er, nr, dr, go, kr 
* 

正如你看到的,及時的編碼工作,呈現出A型和O無論是在輸入和輸出。

管道給出了相同的結果:

echo sjögräs | hunspell -d sv_SE 

我曾試圖給不同的選擇與hunspell,包括-i UTF-8-i UTF-16,並保持AFF文件的SET ISO8859-1。沒有工作。

同樣的事情發生與法國:

C:\Users\gauthier>echo résultat | hunspell -d fr-moderne 
Hunspell 1.3.2 
* 
& sultat 2 2: sultan, rAcsultat 

與另外的問題與輸出。

我在MinGW中編譯hunspell,並將生成的所需文件移到我的路徑中的某處,但我認爲這些信息並不相關。

如何讓hunspell識別輸入中的特殊字符?

回答

0

通過回顯變量$LC_ALL$LANG您可以看到您的終端上具有哪種語言和區域設置配置。

然後,您可以嘗試通過重新定義這些變量來將其更改爲字符集hunspell。例如,你可以設置

LC_ALL=en_US.ISO8859-15 

LANG=ca_ES.cp1252 

我記得,默認字符集是latin1的,但我不知道(我不是在Linux現在)。

試試這種方法,而不是修改hunspell軟件。