topic-modeling

    1熱度

    1回答

    我正在嘗試使用Java中的Apache Spark ML創建LDA模型。輸入文檔採用字符串格式。我以數字格式獲得主題,但不是以文字格式。 發現了類似的問題,但令人遺憾的是解決方案是在R- LDA with topicmodels, how can I see which topics different documents belong to?但我正在尋找使用Spark中的ML lib的解決方案。

    2熱度

    1回答

    中每個主題的詞語分佈p(w | t)我需要獲得以Java編程的Mallet找到的每個主題的單詞分佈(不在CLI中,如how to get a probability distribution for a topic in mallet?中所述)。對於我的意思的例子:Introduction to Latent Dirichlet Allocation: Topic A: 30% broccoli,

    3熱度

    2回答

    from nltk.tokenize import RegexpTokenizer from stop_words import get_stop_words from gensim import corpora, models import gensim import os from os import path from time import sleep import matp

    1熱度

    1回答

    我正在處理Twitter的主題建模以定義個人Twitter用戶的個人資料。我正在使用Gensim模塊來生成LDA模型。我的問題是關於選擇好的輸入數據。我想生成主題,然後分配給特定用戶。問題是關於輸入數據。現在,我正在使用受監督的方法來自行選擇來自不同類別的用戶(體育,IT,政治等),並將他們的推文放入模型中,但效率不高。 什麼是一個很好的方法來產生整個Twitter的有意義的主題?

    1熱度

    1回答

    我正在分析mashable.com的新文章。我所創建的數據看起來像(有現在14篇,因素是人氣還是not_popular) ID含量因素 1人氣 一些文字資料我想要做的監督主題建模這個數據使用Jonathan Chang的LDA包。我試圖做的一些數據預處理和這裏是一樣 require("ggplot2") require("grid") require("plyr") library(resh

    1熱度

    1回答

    我正在嘗試使用主題建模對博客內容進行分類。使用LDA轉換,我無法找到相關的黑白主題。說,板球是體育話題的一個子課題。但是,我知道這可以通過使用HLDA來實現。有人能幫助我如何在python gensim包中實現HLDA轉換嗎?

    0熱度

    1回答

    我試圖使用R中的LDA將IT支持票據分類到相關主題中。 我的語料庫有:5,550個文檔和1882個術語。我開始與12000條款,但刪除後,我用1800個單詞降落常見的停止詞和其他噪音詞。 檢查LDAvis輸出後,算法返回的結果/主題非常好,我通過檢查語料庫的樣本進行驗證。我在輸出字是獨家的主題,一旦可以在主題一讀 但檢查文檔 - 專題概率矩陣到達,在矩陣分配概率非常低,大部分的案例(理想情況下,它

    0熱度

    1回答

    據我所知,我需要修復Python/R中LDA建模的主題數量。但是,假設我設置了topic=10,而結果顯示一個文件,九個主題都是關於「健康」的,這個文件的主題數量確實是2。如何在不檢查每個主題的關鍵詞並手動計算真正獨特的主題的情況下發現它? P.S.我用Google搜索瞭解到,按主題列出了詞彙詞彙表(Word Banks),我可以根據單詞列表將每個主題與主題配對。如果幾個主題屬於同一主題,那麼我可

    1熱度

    1回答

    我希望在保存爲用於Mallet模型的InputDirectory中的單個文件的語料庫上應用使用porter算法的詞根分析。有人可以幫助它如何執行?

    2熱度

    2回答

    比方說,我的數據幀包含 > DF V1 V2 V3 1 0.3 0.4 0.7 2 0.4 0.2 0.1 3 0.2 0.8 0.3 4 0.5 0.8 0.9 5 0.2 0.7 0.8 6 0.8 0.3 0.6 7 0.1 0.5 0.4 行會是不同類型的汽車, 和列將是V1,V2,V3的特定類別的概率。 我想生成一個向每個汽車分配其最高概率的類別的向量。例如,