2011-12-14 94 views
1

我開始了尋找到這樣的搜索查詢的一些機器翻譯,並一直在努力想不同的方式來迭代之間以及與其他系統的評價我的翻譯系統。首先想到的是從一羣人翻譯mturk中的一組搜索條件,並說每個條目都是有效的,或者按照這些條款進行翻譯,但是這樣做會很昂貴,並且很可能會導致翻譯錯誤。什麼是好機器翻譯公制或黃金集合

現在,我想要更便宜或更好的東西,我想我會問StackOverflow的想法,以防已有一些標準可用,或有人試圖找到其中之一。例如,有誰知道Google翻譯如何評價他們系統的各種迭代?

回答

1

我建議提煉你的問題。機器翻譯有很多指標,這取決於你想要做什麼。就你而言,我認爲這個問題簡單地表述爲:「給定一組語言L1的查詢,我怎麼能在網絡搜索的上下文中測量翻譯成L2的質量?」

這基本上是跨語言信息檢索。

什麼重要的是要在這裏知道的是,你實際上並不關心提供與查詢翻譯的用戶:您希望得到他們的結果,他們會從查詢的一個好的翻譯得到。

爲此,你可以簡單地衡量一個黃金翻譯和系統的結果與搜索結果列表的差異。您可以使用許多衡量級別相關度,設置重疊度等指標。關鍵是你不需要評判每一個翻譯,而只是評估自動翻譯是否給你和人類翻譯一樣的結果。

對於提出錯誤翻譯的人,您可以評估推定的黃金標準候選人是否有類似的結果列表(即給出3個手動翻譯,他們是否同意結果?如果不是,則使用最重疊的2個)。如果是這樣,那麼從IR的角度來看,這些實際上是同義詞。

2

這裏有一些信息,因爲它提供了通常用來衡量一個MT系統的開發者質量BLEU得分技術的基本解釋,可能是有用的。

第一個環節提供BLEU的基本概況和第二指出了一些問題,BLEU而言它的侷限性。

http://kv-emptypages.blogspot.com/2010/03/need-for-automated-quality-measurement.html

http://kv-emptypages.blogspot.com/2010/03/problems-with-bleu-and-new-translation.html

還有關於如何開發一個有用的測試設置這個鏈接一些非常具體務實的建議:AsiaOnline.Net網站在十一月通訊。由於有兩個限制,我無法放入此鏈接。