假設我們有內容的文本文件: 「濟豬鏈球菌未情郎HOMME ......」如何判斷寫入純文本文件的語言是什麼?
另一個具有: 「我是一個勇敢的人」
第三,在德國的文本: 「Guten morgen。Wie geht's?」
我們如何編寫一個函數來告訴我們:第一個 文件中的文本是英文的,第二個文件是法文文件?
歡迎鏈接到圖書/開箱即用的解決方案。我用Java編寫,但如果需要,我可以學習Python。
我的評論
- 有一個小評論,我需要補充。文本可能包含不同語言的短語,作爲整體的一部分或作爲錯誤的結果。在經典文學中,我們有很多例子,因爲貴族成員是多種語言的。所以概率更好地描述了情況,因爲文本的大部分都是用一種語言編寫的,而其他的可能是用另一種語言編寫的。
- Google API - Internet連接。我不想使用遠程功能/服務,因爲我需要自己做或使用可下載的庫。我想對這個話題進行研究。
@EugeneP:法國人會更多「但是一個語言檢測器不太可能發現那個錯誤(或者至少非常罕見的用法)。 – SyntaxT3rr0r 2010-02-24 13:03:41
@WizardOfOdds Je suis un bonhomme alors,merci,quand meme;) – EugeneP 2010-02-24 13:06:53
另外,希望你已經檢查過這個:http://stackoverflow.com/questions/1383503/how-to-determine-the-natural-language-of- a-document – 2010-02-24 13:40:15