gensim

2熱度

3回答

我想獲得兒童轉發器的項目數，但由於某種原因它保持爲零。這是我的代碼：家長中繼是rptDays。兒童中繼器是rptEditInfo。 protected void rptDays_ItemDataBound(object sender, RepeaterItemEventArgs e) { if (e.Item.ItemType == ListItemType.Item || e.Ite

1熱度

1回答

Doc2Vec是否學習標籤的表示？

我使用Doc2Vec標籤作爲我的文檔的唯一標識符，每個文檔都有不同的標籤並且沒有語義含義。我使用標籤來查找特定的文檔，以便我可以計算它們之間的相似性。標籤是否會影響我模型的結果？在這tutorial他們談論參數train_lbls=false，這個設置爲false，沒有學習標籤（標籤）的表示。該教程有些過時，我猜這個參數不再存在，Doc2Vec如何處理標籤？

0熱度

1回答

'Doc2Vec'對象沒有屬性'wv'

當我從pkl文件加載doc2vec模型時，出現此錯誤。 --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-45-5ed9dc71f3a6> in <mod

1熱度

1回答

Word2Vec模型沒有訓練，在列表中嘗試了句子的序列和標記化的詞的輸入句子

我經歷了word2vec教程，並且能夠訓練給定的Text8Corpus的示例數據。 Tutorial link但是當我試圖對自定義數據進行測試時，模型沒有被訓練。輸入在Python列表中以unicode字符串格式。並且min_count也被設置爲1.因爲它沒有以上述輸入格式進行訓練，所以我嘗試檢查給定教程的輸入類型，但是我收到的格式如下：class'gensim.models.word2vec.T

0熱度

1回答

LDA - 爲主題分配關鍵字

我有大約150k文檔的非結構化數據。我正嘗試使用無監督學習算法對這些文檔進行分組。目前我在gensim Python中使用LDA（潛在Dirichlet分配）。對於LDAModel，我已經通過了num_topics = 20。因此，我的整個150k數據都屬於20個主題。現在，我有這些羣體，我有2個問題：我應該如何分配新的文件，以這些主題？我正在採用的方法是：計算每個主題文檔的單詞分數總和，

1熱度

3回答

在字符串和類名字之間施放字符串

我有一個字符串，其中包含一個類名。例如，它是一個包含「Article」的字符串。該字符串來自params []。我應該如何處理這個字符串，就好像它是一個類名？例如，我想做： Article.all 等等。有什麼想法？

10熱度

1回答

可視化gensim生成的word2vec

我使用gensim在自己的語料庫上訓練了doc2vec和相應的word2vec。我想用t-sne和word來形象化word2vec。如圖所示，圖中的每個點都帶有「單詞」。我看了一個類似的問題在這裏：t-sne on word2vec 跟隨它，我有這樣的代碼：進口gensim 進口gensim.models爲g from sklearn.manifold import TSNE import

0熱度

1回答

RuntimeError：在培訓期間釋放解鎖鎖定doc2vec

在OS X上的Jupyter筆記本中訓練doc2vec模型時，出現以下錯誤。錯誤對於當前數據集是可重現的（儘管它發生的特定線程發生更改），儘管我已經成功地訓練了其他數據集上的模型。 Exception in thread Thread-82: Traceback (most recent call last): File "/Users/kevinyang/anaconda/lib/pyth

0熱度

1回答

潛在語義指數化與gensim

爲了利用潛在語義調整方法從gensim，我要開始與小「的Classique」的例子，如： import logging, gensim, bz2 id2word = gensim.corpora.Dictionary.load_from_text('wiki_en_wordids.txt') mm = gensim.corpora.MmCorpus('wiki_en_tfidf.mm') l

0熱度

1回答

Gensim在句子中查找主題

我已經在一個語料庫上訓練了一個LDA算法，我想要做的是獲取每個句子所對應的主題，以便在算法找到的內容之間進行比較和我擁有的標籤。我試圖與下面的代碼，但結果很糟糕，我覺得題目大量17（也許是體積的25％，應該是接近5％）感謝您的幫助 # text lemmatized: list of string lemmatized dico = Dictionary(texts_lemmatized)