2011-11-16 163 views
4

我使用tesseract進行OCR,主要用於發票。但是,tesseract需要在開始處理文件之前指定語言。語言檢測

我以爲我打算根據預定義的默認語言執行ocr。然後,我想使用結果文本來檢查使用哪種語言。如果它不是默認語言,我會再次處理它以便從tesseract中獲得更好的結果。

但是我該如何實現一種語言檢測算法?有我可以使用的C++庫嗎?

回答

3

我不確定這是否會對Java庫有幫助。但是我發現它非常酷,因爲它能夠從給定的文本中檢測大約50種語言,並且具有相當好的精確度。您可能希望看看它,因爲它是開源的,如果您的應用程序只需要用C++編寫,您可以用C++重寫代碼並將其返回給開源社區。

這裏是鏈接一樣:

http://code.google.com/p/language-detection/

注:它使用了Apache的Nutch和提卡庫進行分析。