topic-modeling

0熱度

1回答

我使用下面的代碼做主題建模上的我的文檔主題的概率分佈： from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer tfidf_vectorizer = TfidfVectorizer(tokenizer=tokenize, max_df=0.85, min_df=3, ngram_range=(1,5

-2熱度

1回答

使用Python的基於模板的文本摘要

我想從會議摘要中提取關鍵摘要，例如項目名稱，面臨的挑戰，截止日期，解決方案。我有一個所有這些外賣的模板。因此，在會議後，我需要我的模型來提取與這些外賣相關的文本。請給我一些關於這個問題的指針，我也有使用python的語言約束。謝謝

1熱度

1回答

創建自定義模式爲我的數據集在槌

我在使用Mallet 2.0.7在Java中用於挖掘鳴叫。根據文檔，對於主題建模，我必須使用CsvIterator讀取數據集。 Reader fileReader = new InputStreamReader(new FileInputStream(new File(args[0])), "UTF-8"); instances.addThruPipe(new CsvIterator

0熱度

1回答

使用text2vec包進行文本預處理和主題建模

我有大量文檔，並且想使用text2vec和LDA（Gibbs Sampling）進行主題建模。步驟我需要的是爲（按順序）：從文本中刪除數字和符號 library(stringr) docs$text <- stringr::str_replace_all(docs$text,"[^[:alpha:]]", " ") docs$text <- stringr::str_replace_all

0熱度

1回答

獲取槌球中所有文檔的實例和主題序列

我正在使用槌球庫進行主題建模。我的數據集是在filePath路徑和csvIterator似乎可以讀取數據，因爲model.getData（）有大約27000行等於我的數據集。我寫了一個循環，打印10個第一個文檔的實例和主題序列，但記號的大小是0.我哪裏出錯了？在下面，我想顯示前10個主題中的前10個詞的比例，但所有輸出都是相同的。在cosole出例如： ----文檔0 0 0.200 COM

1熱度

1回答

在主題建模中整合預先訓練的單詞向量R

我對主題建模領域比較陌生，所以我希望這不是一個愚蠢的問題。我有一個7k文檔的文本語料庫，大部分都比較短（只是幾個字）。由於標準LDA只會產生中等程度的好結果，因此我希望包括在大型外部語料庫上預先訓練的單詞向量（如下所示：https://nlp.stanford.edu/projects/glove/）。但是，我還沒有找到任何解釋我應該如何繼續的東西（我在Python中找到了關於實現的一些信息，

2熱度

2回答

如何刪除主題建模（LDA）不必要的信息

如何刪除主題建模（LDA）不必要的信息你好，我想創建主題建模。我的數據是這種結構。 1. Doesn't taste good to me. 2. Most delicious ramen I have ever had. Spicy and tasty. Great price too. 3. I have this on my subscription, my family loves

0熱度

1回答

主題建模中的指令解釋

我有一個關於主題建模（lda）的問題。我不完全理解話題建模的原理，所以這個問題可能看起來很奇怪。這句話是隨機的，它是一個高頻率（概率）嗎？ test = ranking[:5] 這句話的確切含義是什麼？我的代碼獲取了許多主題作爲文檔的數量（我聽說它不可能減少超過文檔數量）。我只提取其中的一部分，有人說代表，有人說頻率很高，我不知道原理。 import os import numpy

2熱度

1回答

瞭解LDA /主題建模 - 太多的主題重疊

我是主題建模/潛在Dirichlet分配的新手，並且無法理解如何將該概念應用於我的數據集（或者它是否是正確的方法）。我有少量的文學文本（小說），並希望使用LDA提取一些常規主題。我在Python中使用gensim模塊以及一些nltk功能。對於測試，我已將原始文本（只有6個）分成30個塊，每個塊包含1000個單詞。然後我將塊轉換爲文檔項矩陣並運行算法。這是代碼（雖然我覺得沒關係的問題）： # c

0熱度

1回答

如何在應用LDA後自動標記主題

我已經在python中實現了LDA。現在我想標記從LDA獲得的主題。 [(0, u'0.023*"alternate" + 0.023*"transfervisions" + 0.013*"tvcommunity"'), (1, u'0.026*"minimalism" + 0.026*"minimalist" + 0.018*"honking"'), (2, u'0.027*"videomaki