我正在嘗試編寫一個簡單的python腳本,用於導入* .txt文件並使用NLTK模塊對其進行標記。NLTK/Python:將文本標記爲固定令牌長度
我面臨的挑戰是必須標記完整的語料庫,但每個標記的長度必須小於或等於200個字符 - NLTK工具箱中是否存在可實現此功能的本機功能?
一個例子: Tokenising第幾段,以「戰爭與和平」的產生以下令牌是303個字符長
token = ["But I warn you, if you don't tell me that this means war, if you still try to defend the infamies and horrors perpetrated by that Antichrist--I really believe he is Antichrist--I will have nothing more to do with you and you are no longer my friend, no longer my 'faithful slave,' as you call yourself"]
它仍包含標點符號(逗號,連字符),我可以寫一個函數使用這些類型的斷點來破解句子,我的問題是NLTK(或另一種語言解析器?)中是否已經存在本機功能,它可以做到這一點,並有效地處理角落案例?
你能舉一個200字符的例子嗎?我不認爲我曾經見過有超過20或30個字符的人 – 2014-10-29 22:41:01
我已經添加了一個例子 - 要清楚的字符數指的是字母,而不是令牌中的單詞(讓我知道如果這是不明確的,我可以編輯這個問題) – AdamDynamic 2014-10-29 22:50:44
你真的跑過代碼?我不相信這是分詞器的作用。它應該輸出'[「但是」,「我」,「警告」] nltk,一個標記是句子的一部分,所以要說 - 或一個詞(但不總是) – 2014-10-29 22:57:55