2017-02-23 39 views
4

爲什麼Python中附帶的法式分詞器不適合我? 我做錯了什麼?像Python中的Nltk法式分詞器不工作

John Richard Bond explique le rôle de l'astronomie. 
["John Richard Bond explique le rôle de l'astronomie."] 

回答

6

tokenizer.tokenize()

我做

import nltk 
content_french = ["Les astronomes amateurs jouent également un rôle important en recherche; les plus sérieux participant couramment au suivi d'étoiles variables, à la découverte de nouveaux astéroïdes et de nouvelles comètes, etc.", 'Séquence vidéo.', "John Richard Bond explique le rôle de l'astronomie."] 
tokenizer = nltk.data.load('tokenizers/punkt/PY3/french.pickle') 
for i in content_french: 
     print(i) 
     print(tokenizer.tokenize(i)) 

,但我得到的非標記化輸出是句子標記生成器(分路器)。如果你想的話記號化,然後使用word_tokenize()

import nltk 
from nltk.tokenize import word_tokenize 

content_french = ["Les astronomes amateurs jouent également un rôle important en recherche; les plus sérieux participant couramment au suivi d'étoiles variables, à la découverte de nouveaux astéroïdes et de nouvelles comètes, etc.", 'Séquence vidéo.', "John Richard Bond explique le rôle de l'astronomie."] 
for i in content_french: 
     print(i) 
     print(word_tokenize(i, language='french')) 

Reference