language-detection

    4熱度

    7回答

    首先,我有很多可用的文本。比方說,每次嘗試我都有10000個字符。 該腳本是基於PHP的,但我可以使用任何我想要的。 C++,java,沒問題。 谷歌語言API無法使用:他們的使用限制很低。 我6個小時,我試圖出來什麼偉大的,但沒有現在。有人能指給我最好的機會嗎?

    5熱度

    1回答

    我需要一個示例代碼來幫助我通過apache tika工具包檢測farsi語言網頁。 LanguageIdentifier identifier = new LanguageIdentifier("فارسی"); String language = identifier.getLanguage(); 我已經下載apache.tika jar文件並將它們添加到類路徑中。但此代碼給波斯

    0熱度

    1回答

    起初,我試圖通過蒂卡檢測波斯語: how can I detect farsi web pages by tika? ,但我明白,蒂卡不支持波斯語,我必須在Tika處理波斯語創建語言資料。但我不知道該怎麼做。實際上我無法理解以下鏈接或谷歌其他鏈接的任何內容。請幫幫我。 https://issues.apache.org/jira/browse/TIKA-546 我想知道添加語言輪廓蒂卡的步驟。

    2熱度

    4回答

    根據這個錯誤,Twitter的搜索API在語言方面至少被打破了2年:http://bit.ly/GQ244g,所以他們似乎不太可能會修復它。 我已經看過其他語言檢測線程上提到的庫,它們都很好看,並提供95%以上的準確度。問題是,哪一個用於推文? 我懷疑推文可能很具挑戰性,因爲它們是由語言加標籤組成的,這些標籤通常是英文的。另外,我最關心的是性能。如果我可以更快地執行過濾,我不介意丟失一些推文。 所

    0熱度

    2回答

    我有一個需要支持Engligh,Spanish和Russian的應用程序。 爲了檢測這一點,我用這個方法: UserLanguage = setLanguage(Locale.getDefault().getDisplayLanguage()); 使用者語言是「EN」如果英語,「ES」是西班牙語,它需要「RU」如果俄羅斯,否則將英語。但是,當我將手機上的語言環境設置爲俄語時,未檢測到該語言環境

    3熱度

    1回答

    我有一個事物數據庫,每個事物都可以有不同語言的多個名稱。這是目前歸一東西有,很多名字模式: things ------ id ... names ----- id thing_id language name 我這個索引使用Solr的,我試圖找出非規範化成爲Lucene的模式是最好的方法。這一個工作好: <fields> <field name="id" type

    4熱度

    8回答

    我正在寫一個Bot,可以檢查成千上萬的網站,無論他們是英文或不是。 我使用Scrapy(蟒蛇2.7框架)爬行每個網站的第一頁, 可以有人建議我這是檢查網站語言的最佳途徑, 任何幫助,將不勝感激。

    0熱度

    1回答

    嗨,我只需要抓取他們的語言是英語的網站。我知道nutch可以通過語言檢測器等插件檢測網站的語言。但是我需要防止nutch爬出沒有英文網站。雖然我知道我們需要抓取一個頁面來理解我想離開網站的語言,因爲我們有可能首先檢測到該語言。你能告訴我它是否可能嗎?例如,如果一個網站的兩三頁被提取,而他們不是英文的,那麼nutch應該離開該網站並放棄這些網頁以及它們的所有網址。謝謝你的幫助。

    4熱度

    3回答

    我使用tesseract進行OCR,主要用於發票。但是,tesseract需要在開始處理文件之前指定語言。 我以爲我打算根據預定義的默認語言執行ocr。然後,我想使用結果文本來檢查使用哪種語言。如果它不是默認語言,我會再次處理它以便從tesseract中獲得更好的結果。 但是我該如何實現一種語言檢測算法?有我可以使用的C++庫嗎?

    1熱度

    2回答

    我有一個翻譯成18種語言的站點(帶有18個已翻譯的域)。它還具有基於語言的動態內容,即不同的產品,其中一些僅以特定語言提供。雖然有一個語言選擇器,人們可以用它來切換語言和網站,但是用這種他不知道的語言找到語言選擇器的人的機會並不是很高。這對於解決問題至關重要,尤其是付費廣告流量,如果不處理,這些流量會被浪費。 我使用Akamai作爲CDN,並希望在JS中執行檢測和重定向,理想情況是在邊緣服務器層上