gensim

    3熱度

    1回答

    我在Python中使用了gensim包來加載預先訓練好的Google word2vec數據集。然後我想用k-means在我的單詞向量上找到有意義的集羣,並找到每個集羣的代表性單詞。我正在考慮使用相應向量與集羣質心最接近的詞來表示該集羣,但不知道這是否是一個好主意,因爲我的實驗沒有給出好的結果。 我的示例代碼是象下面這樣: import gensim import numpy as np imp

    0熱度

    1回答

    我正在使用Windows 7.我已經使用(pip install gensim)安裝了python 2.7和gensim。當我嘗試在Python控制檯導入gensim,我得到以下錯誤: C:\HOMEWARE\Anaconda\lib\site-packages\gensim\utils.py:860: UserWarning: detected Windows; aliasing chunkiz

    0熱度

    1回答

    什麼是Spacy建立矢量表示的方法? 我在自己的語料庫上執行了NLP,然後使用相似性(餘弦相似度)繪製出「相似」的文檔。然而,我不確定什麼方法空間使用創建向量表示。據我所知,我認爲它可能是word2vec skip-gram,帶有負面取樣,但是,我想確定!

    0熱度

    1回答

    我從gensim軟件包的語料庫上應用了LDA,並且我得到了每個術語的概率。我的問題是我如何得到沒有概率的條款。 這裏是我的代碼: K = ldamodel.num_topics t = 0 topicWordProbMat = ldamodel.print_topics(K) for topic_dist in topicWordProbMat: print('TopiC#',t,

    0熱度

    1回答

    我想使用w2v製作的嵌入,以獲得最有可能的替代詞GIVEN上下文(周圍詞),而不是提供單個詞。 例: 一句=「我希望去公園,明天放學後」 如果我想找到類似「公園」,通常我只會從Gensim模型利用相似功能的候選人 model.most_similar('park') 並獲得語義上相似的單詞。然而,這可能會給我類似的動詞「公園」,而不是我後面的名詞「公園」。 有沒有什麼方法可以查詢模型並將其作爲

    2熱度

    1回答

    我有兩個目錄,我想讀他們的文本文件和標籤,但我不知道如何通過TaggedDocument做到這一點,我認爲它會作爲TaggedDocument([字符串],[標籤]),但這doesn顯然工作。這是我的代碼: from gensim import models from gensim.models.doc2vec import TaggedDocument import utilities as

    0熱度

    2回答

    我試圖用Gensim在Persian語言中創建一個word2vec模型,它具有「space」作爲字符分隔符,我使用python 3.5。我遇到的問題是我給了一個文本文件作爲輸入,它返回一個只包含每個字符而不是單詞的模型。我也給其推薦的輸入作爲單詞的列表: Python Gensim word2vec vocabulary key 它不工作對我來說,我認爲它不考慮的話的序列中的句子,因此不會是正確的

    0熱度

    1回答

    在訓練時,word2vec會如何處理句子末尾的單詞。它將使用另一句話開頭的確切單詞作爲最後一句末尾的中心單詞 的上下文單詞。

    0熱度

    2回答

    我最近更新了從python = 3.4到python 3.6的conda環境。該環境是爲使用gensim的項目製作的,在3.4上完美運行。本次更新後,使用該庫生成多個錯誤,如: TypeError: object of type 'itertools.chain' has no len() 或 AssertionError: decomposition not initialized yet

    1熱度

    1回答

    我想從gensim包運行doc2vec庫。我的問題是,當我在訓練和保存模型的模型文件是相當大(2.5 GB),我嘗試使用這一行: model.estimate_memory() 但它並沒有改變任何東西。我也試圖改變max_vocab_size來減少空間。但沒有運氣。有人可以幫我解決這個問題嗎?