使用MOSES統計機器翻譯從印地語到英語

我需要使用MOSES創建印地語到英語翻譯系統。我有一個包含大約10000個印地語句子和相應英文翻譯的平行語料庫。我遵循Baseline system creation page中描述的方法。但是，只是在第一階段，當我想tokenise我的印地文語料，並試圖執行使用MOSES統計機器翻譯從印地語到英語

~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l hi < ~/corpus/training/hi-en.hi> ~/corpus/hi-en.tok.hi

，該tokeniser給我下面的輸出：

Tokenizer Version 1.1 
Language: hi 
Number of threads: 1 
WARNING: No known abbreviations for language 'hi', attempting fall-back to English version...

我即使'hin'，但它試圖仍然不承認語言。任何人都可以講出製作翻譯系統的正確方法嗎？

來源

2014-12-27 avinash

摩西不支持印地文爲符號化的tokenizer.perl使用nonbreaking_prefix.*文件（從https://github.com/moses-smt/mosesdecoder/blob/master/scripts/tokenizer/tokenizer.perl#L516）

可從摩西不間斷前綴的語言包括：

CA：加泰羅尼亞
CS：捷克語
de：德語
el：希臘語
EN：英語
ES：西班牙語
網絡連接：芬蘭
FR：法國
胡：匈牙利
是：冰島
它：意大利
LV：拉脫維亞
nl：荷蘭語
pl：波蘭語
pt：P ortugese
RO：羅馬尼亞
RU：俄羅斯
SK：斯洛伐克
SL：斯洛文尼亞
SV：瑞典
TA：泰米爾

從https://github.com/moses-smt/mosesdecoder/tree/master/scripts/share/nonbreaking_prefixes

然而，所有的希望都不會丟失，在用Moses訓練機器翻譯模型之前，你可以用其他的分詞器來標記你的文字，嘗試谷歌搜索「印地語Tokenziers」，他們周圍有噸。

來源

2014-12-28 22:21:46 alvas

問題提出：https：//github.com/moses-smt/mosesdecoder/issues/90 – alvas 2014-12-28 22:28:23

謝謝...有問題的回覆 – avinash 2014-12-30 07:29:44

使用MOSES統計機器翻譯從印地語到英語

回答

相關問題