topic-modeling

    1熱度

    1回答

    我想通過添加另一個位置層來擴展LDA模型。 是否可以向Mallet添加另一個圖層?如果是這樣,我應該擴展哪些類? 的過程中我試圖模型: 1.選擇一個區域 2.選擇一個主題 3.選擇一個字

    1熱度

    1回答

    我正在使用非負矩陣分解(NMF)主題模型爲客戶反饋構建主題模型。 它創建話題羣集如下: [(0, [u'reserved block', u'reserved block available', u'reserved block week', u'need reserved block']), (1, [u'hour block', u'package hour block', u'bring h

    1熱度

    2回答

    我上的文本數據做一個LDA,使用例如here: 我的問題是: 我怎樣才能知道哪些文件對應於哪些話題? 換句話說,例如什麼文件談論話題1? 這裏是我的步驟: n_features = 1000 n_topics = 8 n_top_words = 20 我讀我的文本文件一行一行: with open('dataset.txt', 'r') as data_file: input_l

    1熱度

    1回答

    我有一組文檔。我也有我想要對文檔進行分類的主題標題。我的首選是在Gensim中使用LDA。有什麼方法可以在主題建模算法中提供我自己的主題列表?

    2熱度

    1回答

    我已經在堆棧溢出數據轉儲的某些部分訓練了一個MALLET的LDA模型,併爲訓練和測試數據做了70/30分割。 但困惑值是奇怪的,因爲它們對於測試集比對於訓練集更低。這怎麼可能?我認爲模型更適合訓練數據? 我已經仔細檢查了我的困惑計算,但是我沒有發現錯誤。你有什麼想法可能是什麼原因? 預先感謝您! 編輯: 使用的LL控制檯輸出代替/訓練集的標記值,我已經使用上重新設置培訓評估。現在這些價值似乎是合理

    1熱度

    1回答

    有時它返回所有主題的概率,一切都很好,但有時它返回幾個主題的概率,並且它們不合計爲一,似乎它取決於文件。通常,當它返回少量話題時,概率加起來或多或少地達到80%,那麼它是否只返回最相關的話題?有沒有辦法強制它返回所有概率? 也許我失去了一些東西,但我找不到方法參數的任何文檔。

    0熱度

    1回答

    我正在LDA中使用木槌來探索我的數據。我沒有訓練和測試數據。我只是用它來聚集我的數據。 我想使用Mallet提供的一些有用的診斷措施。但是當我使用此查詢: bin\mallet train-topics --input doc500.mallet --num-topics 40 --num-top-words 50 --optimize-interval 10 --output-state doc

    0熱度

    1回答

    我從公開的審閱數據創建相關的主題模型並獲取相當奇怪的錯誤。 當我在我的CTM上調用術語(ctm1,5)時,我找回了文檔的名稱,而不是每個主題的前5個術語。 更詳細我跑, library(topicmodels) library(data.table) library(tm) a <-Corpus(DirSource("~/text", encoding="UTF-8"), readerCo

    0熱度

    1回答

    我想標籤一些文件,我嘗試了LDA算法,但結果太混亂。我決定使用監督方法,所以我創建了自己的主題詞矩陣,但我不知道如何生成文檔主題矩陣。你知道一些很好的主題建模算法,可以使用主題詞矩陣進行訓練嗎?

    0熱度

    2回答

    我想對csv格式的twitter數據執行主題建模。我在jupyter中加載數據。 # Import pandas as pd import pandas as pd # Load the dataset tweet_data = pd.read_csv("C://Users/shivam/Desktop/USA_TWEETS .csv", sep='\t', name