topic-modeling

0熱度

1回答

我在製作SMS分類程序。爲此，我想將我的信息分類到不同的主題中。所以我想爲此使用gensim。任何人都可以爲我提供任何可以幫助我開始使用gensim進行主題建模的教程的源代碼嗎？

1熱度

1回答

我一直在嘗試使用不同的方法來確定LDA中的主題頻率（在R中），並且偶然發現了非常有用的包ldatuning，但無法真正弄清楚控制參數，特別是種子的示例值。下面是從網站的示例代碼： library("topicmodels") data("AssociatedPress", package="topicmodels") dtm <- AssociatedPress[1:10, ] resu

0熱度

1回答

加載計算的LDA模型並打印每個主題最常用的詞

我是python的新手。我想要做的是通過控制檯讀取2個參數。參數：使用gensim訓練的LDA模型的路徑。參數：我想獲取的每個主題中最常見單詞的數量。現在我想打印所有主題每個主題最常用詞的數量。現在我的問題是如何獲得所有的主題。這是我到目前爲止有： import sys, getopt import gensim def main(argv): input_file = a

2熱度

1回答

R LDA主題模型如何獲得delta的後驗

我運行LD包使用R包主題模型，我一直在嘗試獲取delta的值，在我的理解中，主題詞的dirichlet參數。但是，我無法訪問該值。我只是設法用 [email protected]@delta 或 slot([email protected],"delta") 我知道如何讓阿爾法（DIR參數超過文檔主題）的後驗分佈，這簡直是slot(LDA,"alpha")初始值，但如何得到三角洲？非常

0熱度

1回答

更改MALLET中主題分配文件中的列順序

在培訓主題模型時，MALLET通過使用--output-doc-topics參數生成包含每個文檔主題分佈的製表符分隔文件。它看起來像這樣： doc# filename topic# weight 0 file:/.../document_01.txt 3 0.2110215053763441 14 0.1330645161 ... 但是，我需要此文件以不同的方式排序進一步處理。現在，這些列

2熱度

1回答

導出pyLDAvis圖作爲獨立的網頁

我正在分析文本與主題建模和使用Gensim和pyLDAvis。想與遠處的同事分享結果，而不需要他們安裝python和所有必需的庫。有沒有辦法將交互式圖形導出爲可以上傳到任何Web服務器的HTML/JS文件？我發現在文檔中提到的某些東西，但不知道如何實現它： https://github.com/bmabey/pyLDAvis/blob/master/pyLDAvis/_display.py

4熱度

1回答

如何使用pyspark（2.1.0）LdA獲取與每個文檔相關的主題？

我使用pyspark的LDAModel從語料庫中獲取主題。我的目標是找到與每個文檔相關的主題。爲此，我嘗試根據Docs設置topicDistributionCol。由於我是新手，我不確定本專欄的目的是什麼。 from pyspark.ml.clustering import LDA lda_model = LDA(k=10, optimizer="em").setTopicDistributio

1熱度

2回答

如何讓主題的詞的概率槌

我使用LDA在木槌探索我的數據。我沒有與運行相關的任何問題，只是我需要的頂部詞的概率（比方說20個字）我使用此查詢： bin\mallet train-topics --input tutorial.mallet --num-topics 40 --optimize-interval 20 --output-state topic-state_doc_40t.gz --output-topic-

0熱度

1回答

如何將LDA輸出轉換爲R中的詞主題矩陣？

library(tm) library(topicmodels) lda_topicmodel <- model_LDA(dtm, k=20, control=list(seed=1234)) 我執行使用在R中LDA功能隱含狄利克雷分佈現在，我在S4對象格式的LDA。如何將其轉換爲R中的文字 - 主題矩陣和文檔 - 主題矩陣？不幸的是，'S4'類型的對象不可子集。所以，我不得不求助於復

1熱度

1回答

在gensim中提取主題詞概率矩陣LdaModel

我有LDA模型和文檔主題概率。 # build the model on the corpus ldam = LdaModel(corpus=corpus, num_topics=20, id2word=dictionary) # get the document-topic probabilities theta, _ = ldam.inference(corpus) 我還需要爲所有主