NLTK RegEx Chunker - 通配符匹配任何POS標籤？

我使用NLTK的RegexpParser從POS標記的單詞中獲取短語。例如：NLTK RegEx Chunker - 通配符匹配任何POS標籤？

grammar = """ 
     FOUND:{<NNP>+<CD>+<,>+<CD>} 
     ... 
     """ 

pos_tagged_words = [('February', 'NNP'), ('14', 'CD'), (',', ','), ('1993', 'CD')] 

result = nltk.RegexpParser(grammar).parse(pos_tagged_words)

有什麼辦法匹配通配符標籤嗎？如果這個工作，我會尋找這樣的事情：

FOUND:{<NNP>?<.>*<VBZ>}

哪裏<>是通配符。

編輯：
發現一個非常糟糕的方式來做到這一點，並不包括所有字符。仍然會喜歡專用的通配符字符。

FOUND:{<NNP>?<[A-Z]+|[:punct:]+>*<VBZ>}

來源

2014-09-10 user3915191

你能不能代替'<[A-Z] + | [：PUNCT：] +> *'和''<.*?>或類似的東西？ '.'通常代表非換行符，但我不確定NLTK的RegexpParser。 – Sam 2014-09-10 19:41:23

試試這個：

{<NNP>?<.*>*<VBZ>}

來源

2014-09-11 08:47:36 bogs

NLTK RegEx Chunker - 通配符匹配任何POS標籤？

回答

相關問題