0
我有標題的列表:無法記號化使用gensim和句子NLTK在Python
> print(data)
>
0 Manager
1 Electrician
3 Carpenter
4 Electrician & Carpenter
...
我試圖用gensim找到最接近的相關商品。
我的代碼是:
import os
import pandas as pd
import nltk
import gensim
from gensim import corpora, models, similarities
from nltk.tokenize import word_tokenize
df = pd.read_csv('df.csv')
corpus = pd.DataFrame(df, columns=['Job Title'])
tokenized_sents = [word_tokenize(i) for i in corpus]
model = gensim.models.Word2Vec(tokenized_sents, min_count=1)
model.most_similar("Electrician")
當我運行標記化來標記每個標題作爲一個句子(tokenized_sents變量),它只是標記化的標題:
> tokenzied_sents
> [['Job', 'Title']]
我是什麼做錯了?
我能夠然而,利用語料庫[「職務」] [I]迭代,當時我正在給model.most_similar(「經理」),我得到一個錯誤「字‘產品經理’沒有詞彙」 。我在哪裏指定詞彙? –