2017-05-24 43 views
0

我的問題涉及對Word2Vec模型獨特且具體使用的模型進行適當的培訓。 See Word2Vec details here如何針對特殊用途正確訓練Word2Vec模型

我正致力於識別單詞嵌入中的名詞 - 形容詞(或)關係。 (例如,我們在數據集的句子中有'好車')給定單詞的語料嵌入以及所有標記的名詞和形容詞,我試圖設計一種技術來找到連接的正確矢量'nice'with'car'。)

當然,我並不是試圖只連接那兩個單詞,而是技術應該適用於所有的關係。此時採取有監督的方法,然後嘗試設計無監督的方法。

現在你明白我在做什麼,我會解釋這個問題。我明顯知道word2vec需要接受大量數據的訓練,才能儘可能準確地學習正確的嵌入,但我恐怕要給它的數據比帶有標記語句的數據集(500-700)多。如果我給它更多的數據來訓練(例如最新的維基百科轉儲數據集),它會學習更好的向量,但額外的數據會影響我的詞的定位,那麼這個詞的關係是受到額外訓練數據的影響。 (例如,如果在額外的訓練數據中也有「不錯的蘋果」,那麼「好」這個詞的定位可能會受到影響)。

希望這是有道理的,我並沒有做出錯誤的假設,但由於沒有足夠的訓練數據,或者具有良好的向量,但是在嵌入字中的矢量定位受到損害,我只是陷入了具有不良載體的困境。

什麼是正確的培訓方式?儘可能多的訓練數據(數十億字)或只是標記的數據集(500-700句)?

謝謝你的時間,如果我解釋的任何內容都沒有意義,請告訴我。

+0

目前尚不清楚什麼是您的目標的獨特/具體。你期待什麼樣的'好'和'汽車'之間的關係?爲什麼詞性標註很重要?你確定在詞性標註文本中的純word2vec是不夠的嗎?請注意,500-700個句子對於這種模型來說很小 - 好的結果來自數百萬(或數十億)訓練詞,尤其是實現具有數百個維度的詞向量,以及對不太常見詞語的良好向量。 – gojomo

+0

我在看什麼是觀點短語。意見具有特徵(例如「汽車」)和特徵描述符(例如,'好')。我沒有詳細介紹具體細節,但我正在嘗試進行基於特徵的意見挖掘(原始報告:胡敏卿和劉兵,「客戶評論中的挖​​掘意見特徵」,AAAI。第4卷。 4. 2004.)。我已經標記了特徵和特徵描述符,也是原始文本數據,並且我知道500-700個句子是不夠的,但是對更多數據的訓練會引入額外的噪音來定位特徵和特徵描述符,我試圖避免 –

+0

@gojomo請閱讀sophros的答案,以理解僅在有標記的數據集的訓練和具有不良載體的訓練之間與儘可能多的數據訓練+標記的數據集並引入與標記的數據集無關的噪聲語義意義 –

回答

1

一如往常,在類似的情況下,它是最好檢查一下......

我不知道你在測試上的標記數據集的結果與維基百科數據集訓練的差異。你真的有問題害怕的看到?

我只是運行一個實驗,檢查兩種情況下的向量是否確實不同(統計上講)。

嫌疑,你可以用較大的語料庫更多數據引入一些噪聲可能是有益的WRT。到詞彙覆蓋(更大的語料庫 - 更普遍)。這一切都取決於您的預期用例。這很可能是高精度和低迴憶之間的平衡,而回憶則相當好。

+0

謝謝@sophros你的迴應。我還沒有進行實驗,我只是想先問一下,看看其他人的想法,但我完全理解並同意你所說的話。如果沒有人會有明確的答案,我會考慮設計一些實驗來測試差異。 –