2014-12-27 113 views
0

我需要使用MOSES創建印地語到英語翻譯系統。我有一個包含大約10000個印地語句子和相應英文翻譯的平行語料庫。我遵循Baseline system creation page中描述的方法。但是,只是在第一階段,當我想tokenise我的印地文語料,並試圖執行使用MOSES統計機器翻譯從印地語到英語

~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l hi < ~/corpus/training/hi-en.hi> ~/corpus/hi-en.tok.hi 

,該tokeniser給我下面的輸出:

Tokenizer Version 1.1 
Language: hi 
Number of threads: 1 
WARNING: No known abbreviations for language 'hi', attempting fall-back to English version... 

我即使'hin',但它試圖仍然不承認語言。任何人都可以講出製作翻譯系統的正確方法嗎?

回答

3

摩西不支持印地文爲符號化的tokenizer.perl使用nonbreaking_prefix.*文件(從https://github.com/moses-smt/mosesdecoder/blob/master/scripts/tokenizer/tokenizer.perl#L516

可從摩西不間斷前綴的語言包括:

  • CA:加泰羅尼亞
  • CS:捷克語
  • de:德語
  • el:希臘語
  • EN:英語
  • ES:西班牙語
  • 網絡連接:芬蘭
  • FR:法國
  • 胡:匈牙利
  • 是:冰島
  • 它:意大利
  • LV:拉脫維亞
  • nl:荷蘭語
  • pl:波蘭語
  • pt:P ortugese
  • RO:羅馬尼亞
  • RU:俄羅斯
  • SK:斯洛伐克
  • SL:斯洛文尼亞
  • SV:瑞典
  • TA:泰米爾

https://github.com/moses-smt/mosesdecoder/tree/master/scripts/share/nonbreaking_prefixes


然而,所有的希望都不會丟失,在用Moses訓練機器翻譯模型之前,你可以用其他的分詞器來標記你的文字,嘗試谷歌搜索「印地語Tokenziers」,他們周圍有噸。

+0

問題提出:https://github.com/moses-smt/mosesdecoder/issues/90 – alvas 2014-12-28 22:28:23

+0

謝謝...有問題的回覆 – avinash 2014-12-30 07:29:44