2009-03-03 211 views
11

我有興趣瞭解更多有關Natural Language Processing(NLP),如果目前有沒有被基於字典識別爲文本識別專有名詞任何策略很好奇?另外,任何人都可以解釋或鏈接到解釋當前基於字典的方法的資源嗎?誰是NLP的權威專家,或者關於這個問題的權威資源是什麼?策略識別專有名詞NLP

回答

11

確定的任務文本中詞語的適當詞性被稱爲Part of Speech Tagging。例如,Brill tagger使用詞典(詞彙)單詞和上下文規則的混合。我相信這個任務的一些重要的初始字典單詞是停用詞。 一旦你的話語(大部分是正確的),你可以開始建立更大的結構。 This industry-oriented book區分識別名詞短語(NPs)和識別命名實體。 關於教材:Allen's Natural Language Understanding是好的,但有點過時,書。 Foundations of Statistical Natural Language Processing是一個很好的介紹統計NLP。 Speech and Language Processing是一個更嚴格,也許更權威一點。 The Association for Computational Linguistics是計算語言學方面的領先科學社區。

+0

感謝您的資源。 – VirtuosiMedia 2009-03-04 10:15:28

6

除了基於字典的方法,兩個人來我的腦海:

  • 基於模式的方法(以一個簡單的形式:即資本什麼是專有名詞)
  • 機器學習方法(在訓練語料庫標記的專有名詞和訓練分類)

場大多稱爲命名實體提取,且通常認爲信息的一個分支n提取。對於NLP的不同領域的一個很好的出發點通常是在Oxford Handbook of Computational Linguistics的根據章:

Oxford Handbook of Computational Linguistics http://ukcatalogue.oup.com/images/en_US/covers/medium/9780198238829_140.jpg

+0

啊,感謝您的「命名實體提取」一詞。有時,當你剛開始學習某些東西時,弄清楚正確的術語是最難的部分。 – VirtuosiMedia 2009-03-04 01:08:45

2

這取決於你的意思是基於字典的東西。

例如,一種策略是將不是的東西放在字典中,並嘗試繼續假設它們是專有名詞。如果這導致明智的解析,請考慮暫時驗證並繼續進行的假設,否則認爲它們不是。

其他的想法:

  • 在主體地位,沒有一個確定的任何簡單的題目是一個不錯的人選。
  • 同上在介詞短語
  • 在任何位置,所有格限定的基礎(例如鮑勃「鮑勃的妹妹」)是一個很好的候選

- MarkusQ

+0

有關不在詞典中的東西的有趣想法。 – VirtuosiMedia 2009-03-04 01:15:01

4

嘗試搜索「命名實體識別」 - 這是一個的在NLP文獻用於這樣的事情術語。

0

建議的一些工具包: 1. Opennlp:您的任務中有一個命名實體識別組件 2。LingPipe:也是它的一個NER組件 3.斯坦福NLP包:學術用途的優秀包,可能不是商業友好的。 4. nltk:一個Python NLP包

0

如果你有句子,比如「誰是比爾蓋茨」 並且如果你將一部分語音標記器應用於它。 它會給答案

「誰/ WP是/ VBZ賬單/ NN門/ NNS?/。」

U可以嘗試 http://cst.dk/online/pos_tagger/uk/

這個在線所以,你做了什麼都這句話中的名詞。現在你可以用一些算法很容易地提取這個名詞。如果你使用自然語言處理,我建議使用python。它有你可以工作的NLTK(自然語言工具包)。