topic-modeling

    0熱度

    1回答

    我有5個主題的10000條推文。假設我知道基礎事實(每條推文的實際主題),並將推文分爲5個文檔,其中每個文檔包含特定主題的推文。然後,我將LDA應用於主題數量設置爲5的5個文檔。在這種情況下,我獲得了很好的主題詞。 現在,如果我不知道推文的基本事實,我該如何製作輸入文檔,LDA仍然會給我描述5個主題的好主題詞。 如果我通過隨機選擇推文樣本創建輸入文檔,該怎麼辦?如果這最終導致輸入文檔的類似主題混合

    1熱度

    1回答

    我有2個文件, music.txt & science.txt 我希望不要去想從上述(音樂,科學) 提取2個主題從這兩個文件創建LDA模型後(設置num_topics = ) lda = gensim.models.ldamodel.LdaModel(corpus=my_corpus, id2word=corpus_dictionary, num_topics=2) print(lda.pri

    0熱度

    2回答

    我正在嘗試使用Java API進行主題建模。這個包提供了一個方便的例子。但是,考慮到我的數據的規模要大得多,我認爲從一個文件導入它是不切實際的。 我查看了鏈接到另一個MALLET問題的PowerPoint演示文稿,發現了一個名爲FileIterator的東西,我相信我應該可以使用它們代替示例Java代碼中使用的CsvIterator。但是,我不確定我是否正確使用它。我試着用它運行我的代碼,並且它在

    0熱度

    2回答

    我正在研究主題建模,其中給定的文本語料庫在刪除停用詞之後有大量的支持詞形式的噪音。這些單詞具有較高的詞頻,但無法通過使用LDA和其他有用的高頻詞彙來形成主題詞。如何消除這種噪音?

    4熱度

    2回答

    我正在使用槌子主題建模示例代碼,雖然它運行良好,我想知道這個聲明的參數實際上是什麼意思? instances.addThruPipe(new CsvIterator(new FileReader(dataFile), "(\\w+)\\s+(\\w+)\\s+(.*)", 3, 2, 1) // (data, target, name) fi

    1熱度

    1回答

    這裏是問題:當給定一段文字時,我想建議可能的主題。例如,一篇關於科比的新聞文章會建議標籤:'basketball','nba','sports'。 我有一個相當大的訓練數據集(350k +),其中包含用戶分配給文本的文本和標籤的正文。大約有4萬個預先存在的主題;但是,許多主題沒有太多的條目。我會說只有約5K的主題有超過10個條目。用戶不能分配系統中不存在的主題。我也想包括 有沒有人有任何建議算法使

    1熱度

    2回答

    我是Python新手,我嘗試使用LDA包(https://pypi.python.org/pypi/lda)。我有一個標題和每個相關主題的列表。但是,我不知道如何使用該軟件包。我已閱讀軟件包的文檔,但它很模糊。沒有關於輸入結構和一切的信息。有誰曾經使用過它?謝謝!

    0熱度

    1回答

    通常當主題建模我用線沿線的東西: matrix <- create_matrix(cbind(as.vector(lda_data)), language="english", removeNumbers=TRUE, weighting=weightTf) k <- 20 #Hardcoded temp value lda <- LDA(matrix, k, method = "Gibbs",

    1熱度

    1回答

    我正在尋找使用Mallet按我定義的主題對不同文檔進行分類。我知道Mallet會首先確定主題,然後對文檔進行分類,但是我想跳過第一步,因爲我已經有一個主題列表以及與它們相關的單詞。有沒有辦法使用我創建的用Mallet對文檔進行分類的預定義主題列表? 任何指導表示讚賞。謝謝!

    4熱度

    1回答

    的預定義列表上的建築主題,我花了一對夫婦中的R主題模型工作日的,我想知道如果我能做到以下幾點: 我想R根據預定義的術語表建立具有特定術語的主題。我已經與這個名單合作,以確定在文檔中的n-gram(RWeka)和計數只有那些使用下面的代碼發生在我termlist中的術語: terms=read.delim("TermList.csv", header=F, stringsAsFactor=F)