language-detection

4熱度

7回答

首先，我有很多可用的文本。比方說，每次嘗試我都有10000個字符。該腳本是基於PHP的，但我可以使用任何我想要的。 C++，java，沒問題。谷歌語言API無法使用：他們的使用限制很低。我6個小時，我試圖出來什麼偉大的，但沒有現在。有人能指給我最好的機會嗎？

5熱度

1回答

如何檢測tika的farsi網頁？

我需要一個示例代碼來幫助我通過apache tika工具包檢測farsi語言網頁。 LanguageIdentifier identifier = new LanguageIdentifier("فارسی"); String language = identifier.getLanguage(); 我已經下載apache.tika jar文件並將它們添加到類路徑中。但此代碼給波斯

0熱度

1回答

如何在tika中添加其他語言標識來創建語言配置文件？

起初，我試圖通過蒂卡檢測波斯語： how can I detect farsi web pages by tika? ，但我明白，蒂卡不支持波斯語，我必須在Tika處理波斯語創建語言資料。但我不知道該怎麼做。實際上我無法理解以下鏈接或谷歌其他鏈接的任何內容。請幫幫我。 https://issues.apache.org/jira/browse/TIKA-546 我想知道添加語言輪廓蒂卡的步驟。

2熱度

4回答

用於語言檢測推文的快速Java庫？

根據這個錯誤，Twitter的搜索API在語言方面至少被打破了2年：http://bit.ly/GQ244g，所以他們似乎不太可能會修復它。我已經看過其他語言檢測線程上提到的庫，它們都很好看，並提供95％以上的準確度。問題是，哪一個用於推文？我懷疑推文可能很具挑戰性，因爲它們是由語言加標籤組成的，這些標籤通常是英文的。另外，我最關心的是性能。如果我可以更快地執行過濾，我不介意丟失一些推文。所

0熱度

2回答

如何在Android中檢測俄羅斯本地化應用程序

我有一個需要支持Engligh，Spanish和Russian的應用程序。爲了檢測這一點，我用這個方法： UserLanguage = setLanguage(Locale.getDefault().getDisplayLanguage()); 使用者語言是「EN」如果英語，「ES」是西班牙語，它需要「RU」如果俄羅斯，否則將英語。但是，當我將手機上的語言環境設置爲俄語時，未檢測到該語言環境

3熱度

1回答

非規範化混合語言文檔的Solr語言檢測更新處理器

我有一個事物數據庫，每個事物都可以有不同語言的多個名稱。這是目前歸一東西有，很多名字模式： things ------ id ... names ----- id thing_id language name 我這個索引使用Solr的，我試圖找出非規範化成爲Lucene的模式是最好的方法。這一個工作好： <fields> <field name="id" type

4熱度

8回答

python網站語言檢測

我正在寫一個Bot，可以檢查成千上萬的網站，無論他們是英文或不是。我使用Scrapy（蟒蛇2.7框架）爬行每個網站的第一頁，可以有人建議我這是檢查網站語言的最佳途徑，任何幫助，將不勝感激。

0熱度

1回答

如何抓取英文網站並避免抓取其他語言？

嗨，我只需要抓取他們的語言是英語的網站。我知道nutch可以通過語言檢測器等插件檢測網站的語言。但是我需要防止nutch爬出沒有英文網站。雖然我知道我們需要抓取一個頁面來理解我想離開網站的語言，因爲我們有可能首先檢測到該語言。你能告訴我它是否可能嗎？例如，如果一個網站的兩三頁被提取，而他們不是英文的，那麼nutch應該離開該網站並放棄這些網頁以及它們的所有網址。謝謝你的幫助。

4熱度

3回答

語言檢測

我使用tesseract進行OCR，主要用於發票。但是，tesseract需要在開始處理文件之前指定語言。我以爲我打算根據預定義的默認語言執行ocr。然後，我想使用結果文本來檢查使用哪種語言。如果它不是默認語言，我會再次處理它以便從tesseract中獲得更好的結果。但是我該如何實現一種語言檢測算法？有我可以使用的C++庫嗎？

1熱度

2回答

用Akamai自動語言檢測並在JS客戶端重定向

我有一個翻譯成18種語言的站點（帶有18個已翻譯的域）。它還具有基於語言的動態內容，即不同的產品，其中一些僅以特定語言提供。雖然有一個語言選擇器，人們可以用它來切換語言和網站，但是用這種他不知道的語言找到語言選擇器的人的機會並不是很高。這對於解決問題至關重要，尤其是付費廣告流量，如果不處理，這些流量會被浪費。我使用Akamai作爲CDN，並希望在JS中執行檢測和重定向，理想情況是在邊緣服務器層上