2016-11-07 39 views
0

我想了解在Gensim的實現中word2vec和doc2vec向量之間的關係。在我的應用程序中,我使用相同的標籤(主題)標記多個文檔,我正在使用dbow_words = 1在我的語料庫上訓練doc2vec模型,以便訓練單詞向量。我已經能夠以這種方式獲得單詞和文檔向量之間的相似性,這確實具有很大的意義 例如,獲取的文檔標籤類似於字處理 doc2vec_model.docvecs.most_similar(陽性= [doc2vec_model [「管理」]],TOPN = 50))單詞向量和段落向量查詢

但是我的問題是關於計算word2vec和doc2vec向量之間的相似度的理論解釋。假設在具有相同維度(d = 200)的相同語料庫上訓練時,可以總是比較詞向量和文檔向量,從而爲文檔標籤或單詞的類似文檔標籤找到相似的詞。任何建議/想法是最受歡迎的。

問題2:我的其他問題是關於final word2vec模型中單詞高/低頻率的影響。如果wordA和wordB在文檔的特定文檔標籤(集合)中具有相似的上下文,但是wordA的出現頻率高於wordB,則wordB與相應的文檔標籤是否具有較高的相似性得分。我試圖通過以時間方式對語料庫進行抽樣來訓練多個word2vec模型,並且想知道假設文字越來越頻繁,假設語境相對保持相似,與文檔標籤的相似度分數也會增加。做出這個假設我錯了嗎?任何建議/想法都非常受歡迎。

謝謝, 和Manish

回答

0

在訓練模式,其中字向量和doctag向量在訓練期間被可互換地使用,對於相同的周圍字預測任務,它們往往是有意義可比性。 (你的模式,帶有交叉跳躍詞彙訓練的DBOW適合這種情況,並且是紙張'Document Embedding with Paragraph Vectors'使用的模式。)

第二個問題是抽象的和推測的;我想你必須自己測試這些想法。 Word2Vec/Doc2Vec過程訓練矢量以善於處理某些機械式的單詞預測任務,受制於模型的約束和與其他矢量質量的折衷。那麼由此產生的空間安排恰好可用於其他目的 - 排名/絕對相似性,沿某些概念線的相似性,分類等 - 則僅僅是觀察到的實用益處。這是一種'可行的技巧',並可能產生見解,但許多模式根據不同的參數選擇或語料庫特徵而改變的方式尚未在理論上或實驗上得到解決。