2017-02-09 139 views
0

我使用word2vec gensim軟件包在我的數據集上訓練了一個word2vec模型。我的數據集有大約131,681個獨特字,但模型輸出形狀矢量矩陣(47629,100)。所以只有47,629個單詞與它們相關聯。其餘的呢?爲什麼我無法獲得每個獨特單詞的100維矢量?Word2vec模型查詢

回答

1

gensim Word2Vec類使用5的默認min_count,這意味着您的語料庫中任何出現少於5次的單詞都將被忽略。如果啓用INFO級別日誌記錄,則應該看到有關此培訓和其他步驟的記錄消息。

請注意,使用少量(非變化)使用示例很難學習有意義的向量。所以雖然你可能降低min_count爲1,你不應該期望這些載體是非常好的 - 甚至試圖訓練它們可能會惡化你的其他載體。 (低出現的單詞可能本質上是噪音,干擾其他單詞向量的訓練,其中那些其他更頻繁的單詞有足夠多/不同的例子會更好。)

+0

嗨感謝您的真棒解釋.. 。:) –