gensim

    0熱度

    3回答

    我正在使用doc2vec轉換我的追隨者在向量表示中的前100個推文(稱爲v1 ..... v100)。之後,我使用向量表示來完成K均值聚類。 model = Doc2Vec(documents=t, size=100, alpha=.035, window=10, workers=4, min_count=2) 我可以看到集羣0被某些值(比如v10,v12,v23,...)所支配。我的問題是這

    1熱度

    1回答

    我正在處理文檔比較引擎/搜索引擎。我目前使用它如下... search_doc = ["test search"] documents = ["doc 1 text", "doc 2 text", "doc 3 text", "..."] 然後比較結果。 我想怎麼做(在最簡單的術語可能)是具有多維文檔...爲例(具有多個層面,而不僅僅是「文件」的文檔).. documents = {

    0熱度

    1回答

    Gensim實現了一個名爲「doesnt_match」的函數,該函數從列表中返回一個異常詞。 該函數在wordvector對象上調用。 model.wv.doesnt_match( 「穀物早餐晚餐午餐」 .split()) '谷' 的文檔不指定如何此功能真正發揮作用(什麼是計算的背景) 有誰知道 ?

    0熱度

    1回答

    我使用gensimwmdistance來計算參考句子和其他1000個句子之間的相似度。 model = gensim.models.KeyedVectors.load_word2vec_format( 'GoogleNews-vectors-negative300.bin', binary=True) model.init_sims(replace=True) ref

    0熱度

    1回答

    只需閱讀gensim頁面上的doc2vec命令即可。 我很好奇命令「intersect_word2vec_format」。 我對這個命令的理解是,它允許我將預訓練的word2vec模型中的矢量值插入到我的doc2vec模型中,然後使用預訓練的word2vec值訓練我的doc2vec模型,而不是從我的文檔語料庫生成單詞矢量值。結果是我得到了一個更準確的doc2vec模型,因爲我使用的pretrain

    0熱度

    2回答

    我已經應用Doc2vec將文檔轉換爲矢量。之後,我使用矢量進行聚類,並找出每個聚類的質心最近/最相似的文檔。現在我需要找到這些文檔中最重要或最重要的術語,以便我能夠弄清楚每個集羣的特徵。 我的問題是有什麼方法可以找出Doc2vec中文檔中最主要或最相近的術語/單詞。我正在使用python的gensim包來實現Doc2vec的實現

    0熱度

    1回答

    我試圖去學習word2vec中的skip-gram模型,但是我對一些基本概念感到困惑。首先,這裏是我目前對以示例爲動機的模型的理解。我正在使用Python gensim。 這裏我有一個語料庫有三個句子。 sentences = [ ['i', 'like', 'cats', 'and', 'dogs'], ['i', 'like', 'dogs'], ['dogs',

    1熱度

    1回答

    我想用gensim word2vec模型獲得最可能的單詞序列。我發現了一個預訓練的模型,它提供了以下文件: word2vec.bin word2vec.bin.syn0.npy word2vec.bin.syn1neg.npy 這是我的代碼試圖讓句子的概率有這位模特: model = model.wv.load(word_embedding_model_path) model.hs =

    0熱度

    1回答

    from gensim import corpora, models, similarities documents = ["This is a book about cars, dinosaurs, and fences"] # remove common words and tokenize stoplist = set('for a of the and to in - , is'

    0熱度

    1回答

    我創建了一個尺寸爲100尺寸的doc2vec模型。根據我的理解,這些尺寸是我的模型的特徵。我怎樣才能確定這些尺寸究竟是什麼。