我需要使用MOSES創建印地語到英語翻譯系統。我有一個包含大約10000個印地語句子和相應英文翻譯的平行語料庫。我遵循Baseline system creation page中描述的方法。但是,只是在第一階段,當我想tokenise我的印地文語料,並試圖執行使用MOSES統計機器翻譯從印地語到英語
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l hi < ~/corpus/training/hi-en.hi> ~/corpus/hi-en.tok.hi
,該tokeniser給我下面的輸出:
Tokenizer Version 1.1
Language: hi
Number of threads: 1
WARNING: No known abbreviations for language 'hi', attempting fall-back to English version...
我即使'hin'
,但它試圖仍然不承認語言。任何人都可以講出製作翻譯系統的正確方法嗎?
問題提出:https://github.com/moses-smt/mosesdecoder/issues/90 – alvas 2014-12-28 22:28:23
謝謝...有問題的回覆 – avinash 2014-12-30 07:29:44