未知詞和已知詞的詞性

未知詞的詞性標註和已知詞的詞性標註之間有什麼不同？是否有任何工具可以預測詞類的詞性標註...未知詞和已知詞的詞性

來源

2013-05-20 S Gaber

處理詞彙外單詞的一種常見方式是將訓練語料庫中發生率低的所有單詞（例如頻率< 3）與標記* 罕見 *，所以標記可以大致捕獲如何標記罕見的話。然後在測試階段，將每個不在標註詞彙表中的單詞視爲* RARE *。

更簡單的方法是使用大多數標籤標記每個詞彙表外的單詞。以下代碼使用nltk工具箱將每個看不見的單詞標記爲'NN'。

tagger = nltk.UnigramTagger(trainingCorpus, backoff=nltk.DefaultTagger('NN'))

來源

2013-05-20 17:24:11 chenaren

相關但不是非常有用的，如果OP是不是編碼在python =） – alvas

TnT tagger's paper提出了標記生詞的有效方法。

使用詞典處理未知單詞的另一種方法可以在this article中找到。文章顯示，與包括保加利亞語，捷克語，荷蘭語，英語，法語，德語，印地語，意大利語，葡萄牙語，西班牙語，瑞典語，泰語和越南語在內的13種語言的TnT相比，基於詞彙的方法獲得了有希望的詞語標註結果。。您還可以在文章中找到13種語言的TnT和其他兩種POS和形態標註器的準確性結果（針對已知字詞和未知字詞）。

來源

2015-11-25 01:21:22 NQD

未知詞和已知詞的詞性

回答

相關問題