2013-05-20 95 views

回答

3

處理詞彙外單詞的一種常見方式是將訓練語料庫中發生率低的所有單詞(例如頻率< 3)與標記* 罕見 *,所以標記可以大致捕獲如何標記罕見的話。然後在測試階段,將每個不在標註詞彙表中的單詞視爲* RARE *。

更簡單的方法是使用大多數標籤標記每個詞彙表外的單詞。以下代碼使用nltk工具箱將每個看不見的單詞標記爲'NN'。

tagger = nltk.UnigramTagger(trainingCorpus, backoff=nltk.DefaultTagger('NN'))

+0

相關但不是非常有用的,如果OP是不是編碼在python =) – alvas

0

TnT tagger's paper提出了標記生詞的有效方法。

使用詞典處理未知單詞的另一種方法可以在this article中找到。文章顯示,與包括保加利亞語,捷克語,荷蘭語,英語,法語,德語,印地語,意大利語,葡萄牙語,西班牙語,瑞典語,泰語和越南語在內的13種語言的TnT相比,基於詞彙的方法獲得了有希望的詞語標註結果。 。您還可以在文章中找到13種語言的TnT和其他兩種POS和形態標註器的準確性結果(針對已知字詞和未知字詞)。

相關問題