gensim

    3熱度

    1回答

    我有點新手而不是母語英語,所以在理解​​的word2vec和doc2vec時有點麻煩。 我想都給了我一些與查詢詞我請求最相似的單詞,most_similar()(訓練後)。 如何判斷我需要使用哪種情況word2vec或doc2vec? 有人可以解釋一下短字的區別嗎? 謝謝。

    1熱度

    1回答

    據我所知,如果我在一個語料庫的字典大小爲1000並且沒有主題(K)= 10的語料庫上訓練LDA模型,那麼對於詞典中的每個詞我都應該有一個大小爲10的向量向量中的每個位置都是該單詞屬於該特定主題的概率,對嗎? 所以我的問題給出了一個單詞,這個單詞屬於主題k的概率是多少,其中k可以從1到10,我如何在gensim lda模型中獲得這個值? 我使用get_term_topics方法,但它不輸出所有主題的

    0熱度

    1回答

    我曾經對Python 3.5和基於我創建了一個項目gensim樣品和在我的項目中添加這些代碼: class MyCorpus(object): def __iter__(self): for line in open('files/2/mycorpus.txt'): # assume there's one document per line, tokens s

    6熱度

    1回答

    ASP.NET MVC應用程序中Content/Themes/base目錄的用途是什麼?我看到它有一些圖像(據我所知,沒有使用);和一堆jQuery CSS文件。 這些文件是做什麼用的?它們是否在新的ASP.NET MVC應用程序中默認使用?

    0熱度

    1回答

    我想用gensim製作word2vec。我聽說詞彙語料庫應該是unicode,所以我把它轉換成unicode。 # -*- encoding:utf-8 -*- # !/usr/bin/env python import sys reload(sys) sys.setdefaultencoding('utf-8') from gensim.models import Word2Vec

    0熱度

    1回答

    我已經研究了gensim word2vec實現中,我知道輸入向量是syn0,輸出矢量是在syn1和syn1neg如果負採樣。 我知道我可以輸入和輸出的嵌入之間的訪問相似性是這樣的: outv = KeyedVectors() outv.vocab = model.wv.vocab outv.index2word = model.wv.index2word outv.syn0 = model.

    0熱度

    1回答

    我加載使用預訓練Doc2Vec型號: from gensim.models import Doc2Vec model = Doc2Vec.load('/path/to/pretrained/model') ,我發現了以下錯誤: AttributeError: 'module' object has no attribute 'call_on_class_only' 有誰知道如何解決它。該模型

    2熱度

    1回答

    word2vec使用模型中的任意一種來分佈表示單詞。我正在檢查gensim的代碼,但沒有定義gensim使用的模型。

    0熱度

    1回答

    我正在使用短語類,並希望在2D空間中可視化向量。爲了用Word2Vec做到這一點,我使用了T-SNE,它的工作非常完美。當我試圖用短語做同樣的事情時,它沒有任何意義(單詞出現在不相關的單詞旁邊)。 關於如何可視化短語輸出的任何建議?

    2熱度

    1回答

    Im gensims最新版本,使用KeyedVectors加載來自文件的受過訓練的矢量,並且dosent需要實例化新的Word2Vec對象。但是現在我的代碼被破壞了,因爲我不能使用model.vector_size屬性。什麼是替代呢?我的意思是比kv[kv.index2word[0]].size更好的東西。