gensim

    2熱度

    3回答

    我想獲得兒童轉發器的項目數,但由於某種原因它保持爲零。這是我的代碼:家長中繼是rptDays。兒童中繼器是rptEditInfo。 protected void rptDays_ItemDataBound(object sender, RepeaterItemEventArgs e) { if (e.Item.ItemType == ListItemType.Item || e.Ite

    1熱度

    1回答

    我使用Doc2Vec標籤作爲我的文檔的唯一標識符,每個文檔都有不同的標籤並且沒有語義含義。我使用標籤來查找特定的文檔,以便我可以計算它們之間的相似性。 標籤是否會影響我模型的結果? 在這tutorial他們談論參數train_lbls=false,這個設置爲false,沒有學習標籤(標籤)的表示。 該教程有些過時,我猜這個參數不再存在,Doc2Vec如何處理標籤?

    0熱度

    1回答

    當我從pkl文件加載doc2vec模型時,出現此錯誤。 --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-45-5ed9dc71f3a6> in <mod

    1熱度

    1回答

    我經歷了word2vec教程,並且能夠訓練給定的Text8Corpus的示例數據。 Tutorial link但是當我試圖對自定義數據進行測試時,模型沒有被訓練。輸入在Python列表中以unicode字符串格式。並且min_count也被設置爲1.因爲它沒有以上述輸入格式進行訓練,所以我嘗試檢查給定教程的輸入類型,但是我收到的格式如下:class'gensim.models.word2vec.T

    0熱度

    1回答

    我有大約150k文檔的非結構化數據。我正嘗試使用無監督學習算法對這些文檔進行分組。目前我在gensim Python中使用LDA(潛在Dirichlet分配)。對於LDAModel,我已經通過了num_topics = 20。因此,我的整個150k數據都屬於20個主題。 現在,我有這些羣體,我有2個問題: 我應該如何分配新的文件,以這些主題? 我正在採用的方法是: 計算每個主題文檔的單詞分數總和,

    1熱度

    3回答

    我有一個字符串,其中包含一個類名。例如,它是一個包含「Article」的字符串。該字符串來自params []。我應該如何處理這個字符串,就好像它是一個類名?例如,我想做: Article.all 等等。 有什麼想法?

    10熱度

    1回答

    我使用gensim在自己的語料庫上訓練了doc2vec和相應的word2vec。我想用t-sne和word來形象化word2vec。如圖所示,圖中的每個點都帶有「單詞」。 我看了一個類似的問題在這裏:t-sne on word2vec 跟隨它,我有這樣的代碼: 進口gensim 進口gensim.models爲g from sklearn.manifold import TSNE import

    0熱度

    1回答

    在OS X上的Jupyter筆記本中訓練doc2vec模型時,出現以下錯誤。錯誤對於當前數據集是可重現的(儘管它發生的特定線程發生更改) ,儘管我已經成功地訓練了其他數據集上的模型。 Exception in thread Thread-82: Traceback (most recent call last): File "/Users/kevinyang/anaconda/lib/pyth

    0熱度

    1回答

    爲了利用潛在語義調整方法從gensim,我要開始與小「的Classique」的例子,如: import logging, gensim, bz2 id2word = gensim.corpora.Dictionary.load_from_text('wiki_en_wordids.txt') mm = gensim.corpora.MmCorpus('wiki_en_tfidf.mm') l

    0熱度

    1回答

    我已經在一個語料庫上訓練了一個LDA算法,我想要做的是獲取每個句子所對應的主題,以便在算法找到的內容之間進行比較和我擁有的標籤。 我試圖與下面的代碼,但結果很糟糕,我覺得題目大量17(也許是體積的25%,應該是接近5%) 感謝您的幫助 # text lemmatized: list of string lemmatized dico = Dictionary(texts_lemmatized)