gensim

0熱度

3回答

我正在使用doc2vec轉換我的追隨者在向量表示中的前100個推文（稱爲v1 ..... v100）。之後，我使用向量表示來完成K均值聚類。 model = Doc2Vec(documents=t, size=100, alpha=.035, window=10, workers=4, min_count=2) 我可以看到集羣0被某些值（比如v10，v12，v23，...）所支配。我的問題是這

1熱度

1回答

Gensim的多維文檔

我正在處理文檔比較引擎/搜索引擎。我目前使用它如下... search_doc = ["test search"] documents = ["doc 1 text", "doc 2 text", "doc 3 text", "..."] 然後比較結果。我想怎麼做（在最簡單的術語可能）是具有多維文檔...爲例（具有多個層面，而不僅僅是「文件」的文檔）.. documents = {

0熱度

1回答

Gensim doesnt_match函數是如何工作的？

Gensim實現了一個名爲「doesnt_match」的函數，該函數從列表中返回一個異常詞。該函數在wordvector對象上調用。 model.wv.doesnt_match（「穀物早餐晚餐午餐」 .split（）） '谷' 的文檔不指定如何此功能真正發揮作用（什麼是計算的背景）有誰知道？

0熱度

1回答

針對速度（wmdistance）優化Gensim字移動器的距離函數

我使用gensimwmdistance來計算參考句子和其他1000個句子之間的相似度。 model = gensim.models.KeyedVectors.load_word2vec_format( 'GoogleNews-vectors-negative300.bin', binary=True) model.init_sims(replace=True) ref

0熱度

1回答

gensim doc2vec「intersect_word2vec_format」命令

只需閱讀gensim頁面上的doc2vec命令即可。我很好奇命令「intersect_word2vec_format」。我對這個命令的理解是，它允許我將預訓練的word2vec模型中的矢量值插入到我的doc2vec模型中，然後使用預訓練的word2vec值訓練我的doc2vec模型，而不是從我的文檔語料庫生成單詞矢量值。結果是我得到了一個更準確的doc2vec模型，因爲我使用的pretrain

0熱度

2回答

如何在doc2vec中找到文檔中最相似的術語/詞彙？

我已經應用Doc2vec將文檔轉換爲矢量。之後，我使用矢量進行聚類，並找出每個聚類的質心最近/最相似的文檔。現在我需要找到這些文檔中最重要或最重要的術語，以便我能夠弄清楚每個集羣的特徵。我的問題是有什麼方法可以找出Doc2vec中文檔中最主要或最相近的術語/單詞。我正在使用python的gensim包來實現Doc2vec的實現

0熱度

1回答

word2vec培訓程序澄清

我試圖去學習word2vec中的skip-gram模型，但是我對一些基本概念感到困惑。首先，這裏是我目前對以示例爲動機的模型的理解。我正在使用Python gensim。這裏我有一個語料庫有三個句子。 sentences = [ ['i', 'like', 'cats', 'and', 'dogs'], ['i', 'like', 'dogs'], ['dogs',

1熱度

1回答

在gensim word2vec模型中給出文字給定文字嵌入模型的概率

我想用gensim word2vec模型獲得最可能的單詞序列。我發現了一個預訓練的模型，它提供了以下文件： word2vec.bin word2vec.bin.syn0.npy word2vec.bin.syn1neg.npy 這是我的代碼試圖讓句子的概率有這位模特： model = model.wv.load(word_embedding_model_path) model.hs =

0熱度

1回答

與gensim和餘弦相似

from gensim import corpora, models, similarities documents = ["This is a book about cars, dinosaurs, and fences"] # remove common words and tokenize stoplist = set('for a of the and to in - , is'

0熱度

1回答

識別doc2vec模型中的尺寸

我創建了一個尺寸爲100尺寸的doc2vec模型。根據我的理解，這些尺寸是我的模型的特徵。我怎樣才能確定這些尺寸究竟是什麼。