我有興趣瞭解更多有關Natural Language Processing(NLP),如果目前有沒有被基於字典識別爲文本識別專有名詞任何策略很好奇?另外,任何人都可以解釋或鏈接到解釋當前基於字典的方法的資源嗎?誰是NLP的權威專家,或者關於這個問題的權威資源是什麼?策略識別專有名詞NLP
回答
確定的任務文本中詞語的適當詞性被稱爲Part of Speech Tagging。例如,Brill tagger使用詞典(詞彙)單詞和上下文規則的混合。我相信這個任務的一些重要的初始字典單詞是停用詞。 一旦你的話語(大部分是正確的),你可以開始建立更大的結構。 This industry-oriented book區分識別名詞短語(NPs)和識別命名實體。 關於教材:Allen's Natural Language Understanding是好的,但有點過時,書。 Foundations of Statistical Natural Language Processing是一個很好的介紹統計NLP。 Speech and Language Processing是一個更嚴格,也許更權威一點。 The Association for Computational Linguistics是計算語言學方面的領先科學社區。
除了基於字典的方法,兩個人來我的腦海:
- 基於模式的方法(以一個簡單的形式:即資本什麼是專有名詞)
- 機器學習方法(在訓練語料庫標記的專有名詞和訓練分類)
場大多稱爲命名實體提取,且通常認爲信息的一個分支n提取。對於NLP的不同領域的一個很好的出發點通常是在Oxford Handbook of Computational Linguistics的根據章:
啊,感謝您的「命名實體提取」一詞。有時,當你剛開始學習某些東西時,弄清楚正確的術語是最難的部分。 – VirtuosiMedia 2009-03-04 01:08:45
這取決於你的意思是基於字典的東西。
例如,一種策略是將不是的東西放在字典中,並嘗試繼續假設它們是專有名詞。如果這導致明智的解析,請考慮暫時驗證並繼續進行的假設,否則認爲它們不是。
其他的想法:
- 在主體地位,沒有一個確定的任何簡單的題目是一個不錯的人選。
- 同上在介詞短語
- 在任何位置,所有格限定的基礎(例如鮑勃「鮑勃的妹妹」)是一個很好的候選
- MarkusQ
有關不在詞典中的東西的有趣想法。 – VirtuosiMedia 2009-03-04 01:15:01
嘗試搜索「命名實體識別」 - 這是一個的在NLP文獻用於這樣的事情術語。
建議的一些工具包: 1. Opennlp:您的任務中有一個命名實體識別組件 2。LingPipe:也是它的一個NER組件 3.斯坦福NLP包:學術用途的優秀包,可能不是商業友好的。 4. nltk:一個Python NLP包
如果你有句子,比如「誰是比爾蓋茨」 並且如果你將一部分語音標記器應用於它。 它會給答案
「誰/ WP是/ VBZ賬單/ NN門/ NNS?/。」
U可以嘗試 http://cst.dk/online/pos_tagger/uk/
這個在線所以,你做了什麼都這句話中的名詞。現在你可以用一些算法很容易地提取這個名詞。如果你使用自然語言處理,我建議使用python。它有你可以工作的NLTK(自然語言工具包)。
如果你有興趣在自然語言處理和Python的實現是你的編程語言,那麼這可能是一個非常豐富的資源:http://www.youtube.com/watch?v=kKe4M4iSclc
雖然這是孟加拉語,但可以得出一個共同的程序確定了專有名詞。所以我希望這會對你有所幫助。 請檢查以下鏈接: http://www.mecs-press.org/ijmecs/ijmecs-v6-n8/v6n8-1.html
- 1. 專有名詞檢測首字母縮寫詞縮略語
- 2. Flex無法識別crossdomain.xml策略文件
- 3. 使用nlp識別文本
- 4. 的Python NLP意圖識別
- 5. NLP - 中的R識別和替換字(同義詞)
- 6. 將單詞識別爲名詞,動詞或形容詞
- 7. 沒有專有名詞的UITextChecker
- 8. 唯一標識符策略
- 9. 使用Quanteda Corpuses識別名詞
- 10. Laravel專欄別名
- 11. 如何通過專家策略中的專家授權(Rails)
- 12. Facelets策略來識別當前選定的列表項目
- 13. 使C#應用程序組策略識別
- 14. 內容安全策略報告 - uri未被識別
- 15. 在SQL Server 2000中識別未使用表的策略?
- 16. 使用RoR識別字符串中的所有名詞
- 17. 沒有在Rails中發現的專家策略
- 18. doctrine2 ORM和命名策略
- 19. Go JSON命名策略
- 20. SAML名稱標識政策
- 21. 挑戰NLTK詞性標註器報告複數專有名詞
- 22. NLP - 從指令列表中提取動作動詞,名詞
- 23. NLP - 查找哪個動詞在說一個句子的名詞
- 24. UIWebview字詞識別器
- 25. 基於所有派生策略的基本策略工作獲取模板類專業化
- 26. Drupal安裝和域名命名策略?
- 27. 有沒有辦法告訴NLTK某個單詞不是專有名詞,而是名詞?
- 28. 計算實體在NLP中的置信度得分命名實體識別
- 29. NLP - 英語形態詞典
- 30. NLP:單詞和極性
感謝您的資源。 – VirtuosiMedia 2009-03-04 10:15:28