gensim

    1熱度

    1回答

    我正在嘗試使用keras實現卷積lstm網絡。我不使用keras的嵌入層,而是使用Gensim的doc2vec嵌入並從中創建輸入數據。 預處理 preprocessed_train = utils.preprocess_text(train_vect) preprocessed_test = utils.preprocess_text(test_vect) print preprocesse

    0熱度

    1回答

    我想要顯示的Q6食譜here但我的語料庫不斷返回爲[],儘管我已經檢查過它似乎正在正確讀取文檔。 所以我的代碼是: def iter_documents(top_directory): """Iterate over all documents, yielding a document (=list of utf8 tokens) at a time.""" for root,

    0熱度

    2回答

    我試圖計算所有值之間的餘弦相似度。 1000 * 20000的計算時間花了我10多分鐘。 代碼: from gensim import matutils # array_A contains 1,000 TF-IDF values # array_B contains 20,000 TF-IDF values for x in array_A: for y in array_B:

    0熱度

    1回答

    識別相干性值I嘗試運行LDA型號N傳遞LDA對象到get_coherence()它表示錯誤 x.get_coherence() ***類型錯誤: DIAGS()至少需要2個參數(2給出) 我的代碼: - iModel = models.ldamodel.LdaModel(語料庫=語料庫,id2word =字典,NUM_TOPICS = I,傳遞= 10) ldalist.append(iModel

    2熱度

    1回答

    我是主題建模/潛在Dirichlet分配的新手,並且無法理解如何將該概念應用於我的數據集(或者它是否是正確的方法)。 我有少量的文學文本(小說),並希望使用LDA提取一些常規主題。 我在Python中使用gensim模塊以及一些nltk功能。對於測試,我已將原始文本(只有6個)分成30個塊,每個塊包含1000個單詞。然後我將塊轉換爲文檔項矩陣並運行算法。這是代碼(雖然我覺得沒關係的問題): # c

    0熱度

    1回答

    我想用更多的n-gram來製作word2vec模型。正如我發現的,gensim.models.phrase中的短語類可以找到我想要的短語,並且可以在語料庫上使用短語並將其用於word2vec訓練函數的結果模型。 因此,首先我要做一些類似於下面的事情,完全像gensim documentation中的示例代碼。 class MySentences(object): def __init__

    0熱度

    1回答

    我使用以下代碼在〜20,000,000個文檔上生成了tf-idf模型,該模型效果很好。問題是,當我嘗試使用計算時的相似性指標linear_kernel內存使用情況炸燬: from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import linear_kernel t

    1熱度

    1回答

    應用類似的功能 我試圖讓doc2vec功能在Python 3 工作,我有以下代碼: tekstdata = [[ index, str(row["StatementOfTargetFiguresAndPoliciesForTheUnderrepresentedGender"])] for index, row in data.iterrows()] def prep (x): low

    0熱度

    1回答

    我已經在python中實現了LDA。現在我想標記從LDA獲得的主題。 [(0, u'0.023*"alternate" + 0.023*"transfervisions" + 0.013*"tvcommunity"'), (1, u'0.026*"minimalism" + 0.026*"minimalist" + 0.018*"honking"'), (2, u'0.027*"videomaki

    0熱度

    1回答

    我有很多詞矢量的Word2Vec模型。我可以像這樣訪問一個單詞向量。 word_vectors = gensim.models.Word2Vec.load(wordspace_path) print(word_vectors['boy']) 輸出 [ -5.48055351e-01 1.08748421e-01 -3.50534245e-02 -9.02988110e-03...] 現在