我正在創建一個檢測短文本語言的應用程序,平均爲< 100個字符並且包含俚語(例如tweet,用戶查詢,短信)。極短文本的語言檢測
我測試的所有庫都適用於普通網頁,但不適用於非常短的文本。迄今爲止效果最好的庫是Chrome的語言檢測(CLD)庫,我必須將它作爲共享庫構建。
當文本由非常短的單詞組成時,CLD失敗。看過CLD的源代碼後,我發現它使用4克,所以可能是原因。
我在想,現在提高精度的方法是:
- 刪除名牌,號碼,URL和文字,如「軟件」,「下載」,「互聯網」
- 使用字典當文本包含多個短語時,或者當它包含太少的單詞時。
- 該字典來自維基百科新聞文章+ hunspell字典。
什麼數據集最適合這項任務?我該如何改進這種方法?
到目前爲止,我正在使用EUROPARL和維基百科的文章。我在大部分工作中使用NLTK。
您是否設法將CLD構建爲共享庫?你願意分享嗎? – Stuart 2011-10-18 20:57:49
@Stuart是的,我有。您需要在構建時將此作爲參數傳遞: './build/gyp_chromium -f make -D library = shared_library' 然後僅採用您想要的'make cld'的特定庫。 此處的完整說明http://code.google.com/p/chromium/wiki/LinuxFasterBuilds – MrD 2011-10-18 22:06:58