topic-modeling

1熱度

1回答

我想通過添加另一個位置層來擴展LDA模型。是否可以向Mallet添加另一個圖層？如果是這樣，我應該擴展哪些類？的過程中我試圖模型： 1.選擇一個區域 2.選擇一個主題 3.選擇一個字

1熱度

1回答

我正在使用非負矩陣分解（NMF）主題模型爲客戶反饋構建主題模型。它創建話題羣集如下： [(0, [u'reserved block', u'reserved block available', u'reserved block week', u'need reserved block']), (1, [u'hour block', u'package hour block', u'bring h

1熱度

2回答

蟒蛇scikit學習，讓每個主題文檔LDA

我上的文本數據做一個LDA，使用例如here：我的問題是：我怎樣才能知道哪些文件對應於哪些話題？換句話說，例如什麼文件談論話題1？這裏是我的步驟： n_features = 1000 n_topics = 8 n_top_words = 20 我讀我的文本文件一行一行： with open('dataset.txt', 'r') as data_file: input_l

1熱度

1回答

LDA/LSI在Gensim中使用預定義主題列表進行主題建模

我有一組文檔。我也有我想要對文檔進行分類的主題標題。我的首選是在Gensim中使用LDA。有什麼方法可以在主題建模算法中提供我自己的主題列表？

2熱度

1回答

使用MALLET訓練的LDA模型的奇異瑕疵值

我已經在堆棧溢出數據轉儲的某些部分訓練了一個MALLET的LDA模型，併爲訓練和測試數據做了70/30分割。但困惑值是奇怪的，因爲它們對於測試集比對於訓練集更低。這怎麼可能？我認爲模型更適合訓練數據？我已經仔細檢查了我的困惑計算，但是我沒有發現錯誤。你有什麼想法可能是什麼原因？預先感謝您！編輯：使用的LL控制檯輸出代替/訓練集的標記值，我已經使用上重新設置培訓評估。現在這些價值似乎是合理

1熱度

1回答

由gensim的get_document_topics方法返回的概率不合併爲

有時它返回所有主題的概率，一切都很好，但有時它返回幾個主題的概率，並且它們不合計爲一，似乎它取決於文件。通常，當它返回少量話題時，概率加起來或多或少地達到80％，那麼它是否只返回最相關的話題？有沒有辦法強制它返回所有概率？也許我失去了一些東西，但我找不到方法參數的任何文檔。

0熱度

1回答

無法識別的選項： - Mallet中的--diagnostics-file

我正在LDA中使用木槌來探索我的數據。我沒有訓練和測試數據。我只是用它來聚集我的數據。我想使用Mallet提供的一些有用的診斷措施。但是當我使用此查詢： bin\mallet train-topics --input doc500.mallet --num-topics 40 --num-top-words 50 --optimize-interval 10 --output-state doc

0熱度

1回答

R中的主題建模

我從公開的審閱數據創建相關的主題模型並獲取相當奇怪的錯誤。當我在我的CTM上調用術語（ctm1，5）時，我找回了文檔的名稱，而不是每個主題的前5個術語。更詳細我跑， library(topicmodels) library(data.table) library(tm) a <-Corpus(DirSource("~/text", encoding="UTF-8"), readerCo

0熱度

1回答

主題建模與機器學習與LDA

我想標籤一些文件，我嘗試了LDA算法，但結果太混亂。我決定使用監督方法，所以我創建了自己的主題詞矩陣，但我不知道如何生成文檔主題矩陣。你知道一些很好的主題建模算法，可以使用主題詞矩陣進行訓練嗎？

0熱度

2回答

在twitter數據上的python主題建模

我想對csv格式的twitter數據執行主題建模。我在jupyter中加載數據。 # Import pandas as pd import pandas as pd # Load the dataset tweet_data = pd.read_csv("C://Users/shivam/Desktop/USA_TWEETS .csv", sep='\t', name