gensim

1熱度

1回答

在Keras Conv1d中使用gensim doc2vec。 ValueError

我正在嘗試使用keras實現卷積lstm網絡。我不使用keras的嵌入層，而是使用Gensim的doc2vec嵌入並從中創建輸入數據。預處理 preprocessed_train = utils.preprocess_text(train_vect) preprocessed_test = utils.preprocess_text(test_vect) print preprocesse

0熱度

1回答

Gensim - 迭代多個文檔

我想要顯示的Q6食譜here但我的語料庫不斷返回爲[]，儘管我已經檢查過它似乎正在正確讀取文檔。所以我的代碼是： def iter_documents(top_directory): """Iterate over all documents, yielding a document (=list of utf8 tokens) at a time.""" for root,

0熱度

2回答

如何加速在python中使用嵌套循環計算餘弦相似度的時間

我試圖計算所有值之間的餘弦相似度。 1000 * 20000的計算時間花了我10多分鐘。代碼： from gensim import matutils # array_A contains 1,000 TF-IDF values # array_B contains 20,000 TF-IDF values for x in array_A: for y in array_B:

0熱度

1回答

錯誤而從LDA模型

識別相干性值I嘗試運行LDA型號N傳遞LDA對象到get_coherence（）它表示錯誤 x.get_coherence（） ***類型錯誤： DIAGS（）至少需要2個參數（2給出）我的代碼： - iModel = models.ldamodel.LdaModel（語料庫=語料庫，id2word =字典，NUM_TOPICS = I，傳遞= 10） ldalist.append（iModel

2熱度

1回答

瞭解LDA /主題建模 - 太多的主題重疊

我是主題建模/潛在Dirichlet分配的新手，並且無法理解如何將該概念應用於我的數據集（或者它是否是正確的方法）。我有少量的文學文本（小說），並希望使用LDA提取一些常規主題。我在Python中使用gensim模塊以及一些nltk功能。對於測試，我已將原始文本（只有6個）分成30個塊，每個塊包含1000個單詞。然後我將塊轉換爲文檔項矩陣並運行算法。這是代碼（雖然我覺得沒關係的問題）： # c

0熱度

1回答

文字處理 - 短語檢測後的Word2Vec訓練（bigram模型）

我想用更多的n-gram來製作word2vec模型。正如我發現的，gensim.models.phrase中的短語類可以找到我想要的短語，並且可以在語料庫上使用短語並將其用於word2vec訓練函數的結果模型。因此，首先我要做一些類似於下面的事情，完全像gensim documentation中的示例代碼。 class MySentences(object): def __init__

0熱度

1回答

計算Tfidf矩陣和預測向量之間的相似性會導致內存溢出

我使用以下代碼在〜20,000,000個文檔上生成了tf-idf模型，該模型效果很好。問題是，當我嘗試使用計算時的相似性指標linear_kernel內存使用情況炸燬： from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import linear_kernel t

1熱度

1回答

在Gensim.Doc2Vec

應用類似的功能我試圖讓doc2vec功能在Python 3 工作，我有以下代碼： tekstdata = [[ index, str(row["StatementOfTargetFiguresAndPoliciesForTheUnderrepresentedGender"])] for index, row in data.iterrows()] def prep (x): low

0熱度

1回答

如何在應用LDA後自動標記主題

我已經在python中實現了LDA。現在我想標記從LDA獲得的主題。 [(0, u'0.023*"alternate" + 0.023*"transfervisions" + 0.013*"tvcommunity"'), (1, u'0.026*"minimalism" + 0.026*"minimalist" + 0.018*"honking"'), (2, u'0.027*"videomaki

0熱度

1回答

如何手動改變一個詞的向量尺寸Gensim Word2Vec

我有很多詞矢量的Word2Vec模型。我可以像這樣訪問一個單詞向量。 word_vectors = gensim.models.Word2Vec.load(wordspace_path) print(word_vectors['boy']) 輸出 [ -5.48055351e-01 1.08748421e-01 -3.50534245e-02 -9.02988110e-03...] 現在