2017-04-17 95 views
1

我想用WMD計算2個文本的相似度。我試圖在Python 3中使用下面的代碼,使用gensim:用Python語言移動器的距離

word2vec_model = gensim.models.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True) 
word2vec_model.init_sims(replace=True) # normalizes vectors 
distance = word2vec_model.wmdistance("string 1", "string 2") # Compute WMD as normal. 

但是,我不認爲這是返回我正確的價值。我應該如何在Python中做到這一點?

回答

2

請分割字符串:

distance = word2vec_model.wmdistance("string 1".split(), "string 2".split()) 
>>> 0.4114476676950455 

參數必須是字符串列表。

+0

有時問題很簡單!謝謝。順便說一句,你知道任何更好的方法來衡量,如果兩個文本是相關或不相關? – Skinish