2017-08-12 70 views
0

的線性代數結構我一直在使用gensim庫python.I Word2Vecmodel建要評估我的字嵌入如下評估Word2Vec模型通過找到的話

如果A是關係到B和C是與d ,那麼A-C + B應該等於D.例如,「印度」 - 「盧比」+「日本」的嵌入向量算法應該等於「日元」的嵌入。

我已經使用gensim的構建功能,像predict_output_word,most_similar,但無法獲得所需的結果。

new_model.predict_output_word(['india','rupee','japan'],topn=10) 
new_model.most_similar(positive=['india', 'rupee'], negative=['japan']) 

請按照上述標準幫助我評估我的模型。

回答

2

您應在most_similar()方法的positivenegative參數以相同的方式爲accuracy()方法:

https://github.com/RaRe-Technologies/gensim/blob/718b1c6bd1a8a98625993d73b83d98baf385752d/gensim/models/keyedvectors.py#L697

具體來說,如果您有以下形式的比喻「A是B的關係就像C是爲[預計]」,你應該看看:

results = model.most_similar(positive=[word_b, word_c], negative=[word_a]) 

或者在你的榜樣:

results = model.most_similar(positive=['rupee', 'japan'], negative=['india'])