Gensim word2vec在線培訓

我正在使用一個CSV文件中的句子如下訓練word2vec模型gensim：Gensim word2vec在線培訓

import string 
import gensim 
import csv 
import nltk 

path = '/home/neel/Desktop/csci544_proj/test/sample.csv' 
translator = str.maketrans({key: None for key in string.punctuation}) 

class gen(object): 

    def __init__(self, path): 
     self.path = path 

    def __iter__(self): 
     with open(path) as infile: 
      reader = csv.reader(infile) 
      for row in reader: 
       rev = row[4] 
       l = nltk.sent_tokenize(rev) 
       for sent in l: 
        sent = sent.translate(translator) 
        yield sent.lower().split() 

sentences = [path] 
for p in gen(path): 
    model = gensim.models.Word2Vec(p, min_count=1, iter=1) 

print(model.vocab.keys())

我得到以下結果：（[ 'B'， 'U'，「M '，'h'，'e'，'n'，'r'，'v'，'i'，'a'，'t'，'s'，'k'，'w'，'o'， 'l']）

我得到的結果不是單詞而是字符。程序出錯了？

來源

2016-11-14 Neel Shah

的可能的複製[更新gensim word2vec模型（http://stackoverflow.com/questions/22121028/update-gensim-word2vec-model ） – ksindi

我解決您的代碼

import string 
import gensim 
import csv 
import nltk 

path = '/home/neel/Desktop/csci544_proj/test/sample.csv' 
translator = str.maketrans({key: None for key in string.punctuation}) 

class Generator(object): 
    def __init__(self, pathes): 
     self.pathes = pathes 

    def __iter__(self): 
     for path in self.pathes: 
      with open(path) as infile: 
       for row in csv.reader(infile): 
        for sent in nltk.sent_tokenize(row[4]): 
         yield sent.translate(translator).lower().split() 


corpus = Generator([path]) 
model = gensim.models.Word2Vec(min_count=1, iter=1) 
model.build_vocab(corpus) 
model.train(corpus, total_examples=model.corpus_count, epochs=2) 
model.wv.vocab.keys()

你得到dict_keys(['wassup', 'where', 'fresh', 'new', 'about', 'juice', 'whats', 'are', 'im', 'hello', 'wtf', 'd', 'hi', 'you', 'world', 'bro', 'friend'])

來源

2017-05-28 07:15:52

嗨，最好是解釋一下爲什麼你要更改代碼;有關代碼的說明也可以幫助其他用戶，謝謝 – Maher

Gensim word2vec在線培訓

回答

相關問題