4
爲什麼Python中附帶的法式分詞器不適合我? 我做錯了什麼?像Python中的Nltk法式分詞器不工作
John Richard Bond explique le rôle de l'astronomie.
["John Richard Bond explique le rôle de l'astronomie."]
爲什麼Python中附帶的法式分詞器不適合我? 我做錯了什麼?像Python中的Nltk法式分詞器不工作
John Richard Bond explique le rôle de l'astronomie.
["John Richard Bond explique le rôle de l'astronomie."]
tokenizer.tokenize()
我做
import nltk
content_french = ["Les astronomes amateurs jouent également un rôle important en recherche; les plus sérieux participant couramment au suivi d'étoiles variables, à la découverte de nouveaux astéroïdes et de nouvelles comètes, etc.", 'Séquence vidéo.', "John Richard Bond explique le rôle de l'astronomie."]
tokenizer = nltk.data.load('tokenizers/punkt/PY3/french.pickle')
for i in content_french:
print(i)
print(tokenizer.tokenize(i))
,但我得到的非標記化輸出是句子標記生成器(分路器)。如果你想的話記號化,然後使用word_tokenize()
:
import nltk
from nltk.tokenize import word_tokenize
content_french = ["Les astronomes amateurs jouent également un rôle important en recherche; les plus sérieux participant couramment au suivi d'étoiles variables, à la découverte de nouveaux astéroïdes et de nouvelles comètes, etc.", 'Séquence vidéo.', "John Richard Bond explique le rôle de l'astronomie."]
for i in content_french:
print(i)
print(word_tokenize(i, language='french'))