如果我有中文單詞列表:like reference = ['我','是','好','人'] ,假設= ['我','是','善良的','人]。我可以在中文翻譯中使用:nltk.translate.bleu_score.sentence_bleu(參考文獻,假設)嗎?它和英語一樣嗎?日本人怎麼樣? 我的意思是如果我有英文單詞列表(中文和日文)。謝謝!BLEU分數:我可以用nltk.translate.bleu_score.sentence_bleu來計算中文分數的分數嗎
1
A
回答
1
TL; DR
是的。
在龍
BLEU得分的措施正克和不可知的語言,但它依賴於事實的語言中的句子可以分成令牌。所以是的,它可以比較中國/日本...
請注意在句級使用BLEU分數的注意事項。 BLEU從來沒有創建過考慮句子級別的比較,這裏有一個很好的討論:https://github.com/nltk/nltk/issues/1838
最有可能的是,當你真的有短句子時,你會看到警告。
>>> from nltk.translate import bleu
>>> ref = '我 是 好 人'.split()
>>> hyp = '我 是 善良的 人'.split()
>>> bleu([ref], hyp)
/usr/local/lib/python2.7/site-packages/nltk/translate/bleu_score.py:490: UserWarning:
Corpus/Sentence contains 0 counts of 3-gram overlaps.
BLEU scores might be undesirable; use SmoothingFunction().
warnings.warn(_msg)
0.7071067811865475
您可以使用https://github.com/alvations/nltk/blob/develop/nltk/translate/bleu_score.py#L425中的平滑函數來克服短句子。
>>> from nltk.translate.bleu_score import SmoothingFunction
>>> smoothie = SmoothingFunction().method4
>>> bleu([ref], hyp, smoothing_function=smoothie)
0.2866227639866161
+0
謝謝@ alvas你真好!根據你的回答,corpus_bleu是一樣的。 – tktktk0711
相關問題
- 1. 變異BLEU分數
- 2. 我可以用R計算z分數嗎?
- 3. 計算分數
- 4. 可以分隔參數嗎?
- 5. EXIF分數計算
- 6. 我可以更改分配參數嗎?
- 7. 用Javascript計算分數
- 8. java中的數學計算分數
- 9. 計算記分牌的公平分數
- 10. javascript可以計算百分比嗎?
- 11. 如何計算多分數分類的F1分數?
- 12. 從數據庫計數的數據來計算的百分比計算在PHP
- 13. 可以scipy計算(雙積分)複數值的積分(積分中的實部和虛部)嗎?
- 14. 我可以使用數組來引用分層畫布的上下文嗎?
- 15. 從.NET中的t分數計算百分位數
- 16. 計算組數百分比(*)
- 17. 計算分數[Java程序]
- 18. 分數計算邏輯
- 19. 分段函數計算
- 20. 百分位數計算
- 21. 如何計算分數?
- 22. 計算導數和積分
- 23. 我可以使用Rust詞法分析器或分析器來檢索Rust文件中的函數列表嗎?
- 24. 可能按計數分組嗎?
- 25. 可以使用Solr來計算文檔之間的匹配百分比嗎?
- 26. 我可以區分字符串文字參數和計算爲字符串的參數嗎?
- 27. 是否可以使用pycassa在cassandra中分割和分割計數器數據?
- 28. 我可以用C#中的千位分隔符來聲明常量整數嗎?
- 29. 如何計算PHP中的分鐘數
- 30. 如何計算solr中doc的分數?
你爲什麼不自己嘗試一下? =( – alvas