topic-modeling

    0熱度

    1回答

    我使用下面的代碼做主題建模上的我的文檔主題的概率分佈: from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer tfidf_vectorizer = TfidfVectorizer(tokenizer=tokenize, max_df=0.85, min_df=3, ngram_range=(1,5

    -2熱度

    1回答

    我想從會議摘要中提取關鍵摘要,例如項目名稱,面臨的挑戰,截止日期,解決方案。我有一個所有這些外賣的模板。 因此,在會議後,我需要我的模型來提取與這些外賣相關的文本。 請給我一些關於這個問題的指針,我也有使用python的語言約束。 謝謝

    1熱度

    1回答

    我在使用Mallet 2.0.7在Java中用於挖掘鳴叫。 根據文檔,對於主題建模,我必須使用CsvIterator讀取數據集。 Reader fileReader = new InputStreamReader(new FileInputStream(new File(args[0])), "UTF-8"); instances.addThruPipe(new CsvIterator

    0熱度

    1回答

    我有大量文檔,並且想使用text2vec和LDA(Gibbs Sampling)進行主題建模。 步驟我需要的是爲(按順序): 從文本中刪除數字和符號 library(stringr) docs$text <- stringr::str_replace_all(docs$text,"[^[:alpha:]]", " ") docs$text <- stringr::str_replace_all

    0熱度

    1回答

    我正在使用槌球庫進行主題建模。我的數據集是在filePath路徑和csvIterator似乎可以讀取數據,因爲model.getData()有大約27000行等於我的數據集。 我寫了一個循環,打印10個第一個文檔的實例和主題序列,但記號的大小是0.我哪裏出錯了? 在下面,我想顯示前10個主題中的前10個詞的比例,但所有輸出都是相同的。在cosole出 例如: ----文檔0 0 0.200 COM

    1熱度

    1回答

    我對主題建模領域比較陌生,所以我希望這不是一個愚蠢的問題。 我有一個7k文檔的文本語料庫,大部分都比較短(只是幾個字)。由於標準LDA只會產生中等程度的好結果,因此我希望包括在大型外部語料庫上預先訓練的單詞向量(如下所示:https://nlp.stanford.edu/projects/glove/)。 但是,我還沒有找到任何解釋我應該如何繼續的東西(我在Python中找到了關於實現的一些信息,

    2熱度

    2回答

    如何刪除主題建模(LDA)不必要的信息 你好,我想創建主題建模。 我的數據是這種結構。 1. Doesn't taste good to me. 2. Most delicious ramen I have ever had. Spicy and tasty. Great price too. 3. I have this on my subscription, my family loves

    0熱度

    1回答

    我有一個關於主題建模(lda)的問題。 我不完全理解話題建模的原理,所以這個問題可能看起來很奇怪。 這句話是隨機的,它是一個高頻率(概率)嗎? test = ranking[:5] 這句話的確切含義是什麼? 我的代碼獲取了許多主題作爲文檔的數量(我聽說它不可能減少超過文檔數量)。我只提取其中的一部分,有人說代表,有人說頻率很高,我不知道原理。 import os import numpy

    2熱度

    1回答

    我是主題建模/潛在Dirichlet分配的新手,並且無法理解如何將該概念應用於我的數據集(或者它是否是正確的方法)。 我有少量的文學文本(小說),並希望使用LDA提取一些常規主題。 我在Python中使用gensim模塊以及一些nltk功能。對於測試,我已將原始文本(只有6個)分成30個塊,每個塊包含1000個單詞。然後我將塊轉換爲文檔項矩陣並運行算法。這是代碼(雖然我覺得沒關係的問題): # c

    0熱度

    1回答

    我已經在python中實現了LDA。現在我想標記從LDA獲得的主題。 [(0, u'0.023*"alternate" + 0.023*"transfervisions" + 0.013*"tvcommunity"'), (1, u'0.026*"minimalism" + 0.026*"minimalist" + 0.018*"honking"'), (2, u'0.027*"videomaki