2017-04-27 91 views
0

我最近使用首發NLTK看着數據提取。雖然有幾個例子,用於檢測「真實」的名稱,位置等技術。我還沒有找到一個有效的方法來檢測「由」或「虛」的名字。一個例子字符串是:可能訓練NLTK以檢測句子中「拼湊」的名字?

他的名字是wuzzywugg,他有一個名爲fizzbuzz

狗,我想訓練NLTK是能夠檢測「wuzzywugg」和「fizzbuzz」的名字的字符。看到了一些解決方案,依靠開頭大寫字母詞,但這種感覺很「哈克」 而且容易出錯和誤報。

如何解決這個問題的任何幫助,將不勝感激。提前致謝。

+0

命名實體識別依靠各種線索(通常包括大小寫),以決定哪一種命名實體的(如果有的話),他們正在尋找。如果你不關心從名稱中區分實際情況,這對你來說應該已經足夠好了。 – alexis

回答

0

我處理俄羅斯民間故事時,同樣的問題跑了,實際上大多數人的名字不會出現在西方Gazeteers。一種快速的方法可能是使用詞性標記並只獲得NNP(專有名詞)。檢查這個:http://www.nltk.org/book/ch05.html

這並不完全適用於我,我的方法實際上是提取所有名詞短語(從解析樹中的NP節點),然後提取我註釋自己建立ML分類器的特徵向量。你可以在這裏找到更多的信息:http://ieeexplore.ieee.org/document/7489041/

相關問題