2017-07-14 73 views
0

我想使用w2v製作的嵌入,以獲得最有可能的替代詞GIVEN上下文(周圍詞),而不是提供單個詞。python word2vec使用環繞詞的上下文相似性

例: 一句=「我希望去公園,明天放學後」

如果我想找到類似「公園」,通常我只會從Gensim模型利用相似功能的候選人

model.most_similar('park') 

並獲得語義上相似的單詞。然而,這可能會給我類似的動詞「公園」,而不是我後面的名詞「公園」。

有沒有什麼方法可以查詢模型並將其作爲上下文來提供更好的候選人?

回答

2

Word2vec主要不是一個單詞預測算法。在內部,它試圖做半預測,訓練它的單詞向量,但通常這些訓練預測不是最終使用的單詞向量。

也就是說,近期版本的gensim增加了predict_output_word()方法(對於某些模型模式)近似於訓練期間完成的預測。它可能對你的目的有用。

或者,檢查單詞most_similar()到您的初始目標單詞有點類似於上下文單詞可能會有所幫助。

在單詞矢量訓練期間,已經有一些關於消除多個單詞感官歧義的研究論文(如'to/park/a car'與'walk in a park /'),但我沒有看到它們在開源庫中實現。