這是我的要求。我想以這樣的方式標記和標記段落,以使我能夠實現以下內容。nltk自定義標記器和標記器
- 應確定日期和時間段和標記他們爲DATE和TIME
- 應確定在一段已知的短語和標籤爲自定義
- 和休息含量應標記化應由被標記化默認nltk的word_tokenize和pos_tag函數?
例如,以下sentense
"They all like to go there on 5th November 2010, but I am not interested."
應被標記和標記化作爲在自定義短語的情況下,下面是「我不感興趣」。
[('They', 'PRP'), ('all', 'VBP'), ('like', 'IN'), ('to', 'TO'), ('go', 'VB'),
('there', 'RB'), ('on', 'IN'), ('5th November 2010', 'DATE'), (',', ','),
('but', 'CC'), ('I am not interested', 'CUSTOM'), ('.', '.')]
任何建議都將是有用的。
你是怎麼解決這個問題?我有一個類似的用例,我需要用自定義標籤在不同的句子中標記已知的短語。 – AgentX 2017-07-17 09:38:20