2017-02-15 71 views
0

我是Devnagaric NLP的新手,是否有任何組織或資源可以幫助我開始使用Devnagaric語言(大部分是尼泊爾語或類似印地語)的NLP。我希望能夠爲Devanagaric開發字體,並且還可以做一些字體處理應用程序。如果有人(在這個領域工作),可以給我一些建議,那麼這將是非常可觀的。 在此先感謝梵文文本處理(NLP)從哪裏開始

回答

0

是否有任何組或資源可以幫助我開始使用Devnagaric語言的NLP?

Madan Puraskar Pustakalaya下的Bhasa Sanchar project開發了尼泊爾​​語語料庫。您可以從上述鏈接中提供的聯繫人申請非商業用途的尼泊爾語料庫。

Python的NLTK擁有印地語語料庫。您可以使用

from nltk.corpus import indian 

導入它對於深入瞭解,以天城文基於自然語言處理,我建議你去通過研究papers.Nepali作爲一個資源貧乏的語言;還有許多工作有待完成,這可能是很難得到內容相同。

您應該考慮語言檢測,文本分類,情感分析等(最好基於語料庫中的POS標記庫)來掌握基本知識。

對於這個問題

的第二部分,我敢肯定,字體開發不出來自然語言處理的域名下。你的意思是別的嗎?

0

我是新來Devnagaric NLP,是否有任何團體或資源,這將有助於我開始使用NLP在Devnagaric語言(主要尼泊爾語言或類似的像印地文)

您可以使用給定的嵌入通過fasttext [https://fasttext.cc/docs/en/pretrained-vectors.html#content]並使用一些深度學習RNN模型(如LSTM)進行文本分類,情感分析。

你可以從這裏找到命名實體recoginition [http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5]

一些數據集進行處理印度語言,你可以參考這裏[https://github.com/anoopkunchukuttan/indic_nlp_library]

NLTK支持印度lanugages,對於POS標記和自然語言處理相關的任務,你可以請參考這裏[http://www.nltk.org/_modules/nltk/corpus/reader/indian.html]