可能訓練NLTK以檢測句子中「拼湊」的名字？

我最近使用首發NLTK看着數據提取。雖然有幾個例子，用於檢測「真實」的名稱，位置等技術。我還沒有找到一個有效的方法來檢測「由」或「虛」的名字。一個例子字符串是：可能訓練NLTK以檢測句子中「拼湊」的名字？

他的名字是wuzzywugg，他有一個名爲fizzbuzz

狗，我想訓練NLTK是能夠檢測「wuzzywugg」和「fizzbuzz」的名字的字符。看到了一些解決方案，依靠開頭大寫字母詞，但這種感覺很「哈克」而且容易出錯和誤報。

如何解決這個問題的任何幫助，將不勝感激。提前致謝。

2017-04-27 django-d

命名實體識別依靠各種線索（通常包括大小寫），以決定哪一種命名實體的（如果有的話），他們正在尋找。如果你不關心從名稱中區分實際情況，這對你來說應該已經足夠好了。 – alexis

我處理俄羅斯民間故事時，同樣的問題跑了，實際上大多數人的名字不會出現在西方Gazeteers。一種快速的方法可能是使用詞性標記並只獲得NNP（專有名詞）。檢查這個：http://www.nltk.org/book/ch05.html

這並不完全適用於我，我的方法實際上是提取所有名詞短語（從解析樹中的NP節點），然後提取我註釋自己建立ML分類器的特徵向量。你可以在這裏找到更多的信息：http://ieeexplore.ieee.org/document/7489041/

2017-04-27 15:37:08

回答