在段落矢量建模中,它們將段落引用爲內存信息,並與上下文單詞一起用於預測目標單詞。我不明白爲什麼一個段落會成爲預測目標詞的有用信息。 該段落是否應包含目標詞? 1爲什麼段落向量的概念有意義?
任何人都可以給我舉例說明如何做到這一點嗎?這裏是什麼?段落ID也是一個熱點向量?例如,我有段A,B,C和單詞a,b,c,d,e,f,g。 段落B是abcdefg的序列。 該文件是A + B + C 如果我想訓練這個文件,我想預測單詞d。 這是什麼輸入段落? 如果窗口大小爲7,我知道輸入的單詞應該是a,b,c,e,f,g的熱詞向量。
謝謝你的回答。 –
該段落是否包含我們想要預測的單詞? –
本文中的段落矢量並沒有考慮到真正的單詞。你只需要第n段,給它分配一個隨機向量,然後訓練這個向量。因此,在你的情況下,你會有3段向量A,B和C,並且對於訓練中的每個N-gram樣本,你都可以使用N-gram源自的那個段落向量。 – piko