2016-11-04 112 views
13

我要去thorugh本文http://cs.stanford.edu/~quocle/paragraph_vector.pdf如何gensim計算doc2vec款載體

,並指出

「Theparagraph向量和詞矢量的平均值或級聯 預測在上下文中的下一個字在實驗中,我們使用 級聯作爲組合向量的方法。「

串聯或平均是如何工作的?

例如(如果第1段包含WORD1和單詞2):

word1 vector =[0.1,0.2,0.3] 
word2 vector =[0.4,0.5,0.6] 

concat method 
does paragraph vector = [0.1+0.4,0.2+0.5,0.3+0.6] ? 

Average method 
does paragraph vector = [(0.1+0.4)/2,(0.2+0.5)/2,(0.3+0.6)/2] ? 
從該圖像

另外:

據指出:

該段令牌可以被認爲是另一個詞。它充當一個 內存,它記住了當前上下文中缺少的內容 - 或者該段落的主題 。出於這個原因,我們經常稱段落矢量的分佈式存儲器模型(PV-DM)爲 。

段落標記是否等於段落向量等於on

enter image description here

回答

5

如何串聯或平均工作?

你是否正確的平均水平。級聯是:[0.1,0.2,0.3,0.4,0.5,0.6]

段落標記是否等於段落向量等於on?

「段落標記」被映射到稱爲「段落向量」的向量。它與標記「on」不同,與標記「on」所映射到的詞向量不同。

4

一系列文本的簡單(有時是有用的)矢量是文本單詞矢量的總和或平均值 - 但這是而不是'段落矢量'文件的'段落矢量'是什麼。

相反,段落矢量是另一個矢量,訓練方式類似於單詞矢量,它也被調整以幫助進行單詞預測。這些向量與單詞向量組合(或交錯)以饋送預測模型。也就是說,平均(在DM模式中)包括PV與單詞向量一起 - 它不是從單詞向量組成PV。

在圖中,on是被預測的目標詞,在該圖中由緊密相鄰的詞和完整例子的PV組合而成,該詞可能被非正式地認爲是特殊的僞音,整個文本的例子,參與所有滑動的真實單詞的'窗口'。