topic-modeling

    0熱度

    1回答

    我在製作SMS分類程序。爲此,我想將我的信息分類到不同的主題中。所以我想爲此使用gensim。 任何人都可以爲我提供任何可以幫助我開始使用gensim進行主題建模的教程的源代碼嗎?

    1熱度

    1回答

    我一直在嘗試使用不同的方法來確定LDA中的主題頻率(在R中),並且偶然發現了非常有用的包ldatuning,但無法真正弄清楚控制參數,特別是種子的示例值。 下面是從網站的示例代碼: library("topicmodels") data("AssociatedPress", package="topicmodels") dtm <- AssociatedPress[1:10, ] resu

    0熱度

    1回答

    我是python的新手。我想要做的是通過控制檯讀取2個參數。 參數:使用gensim訓練的LDA模型的路徑。 參數:我想獲取的每個主題中最常見單詞的數量。 現在我想打印所有主題每個主題最常用詞的數量。現在我的問題是如何獲得所有的主題。 這是我到目前爲止有: import sys, getopt import gensim def main(argv): input_file = a

    2熱度

    1回答

    我運行LD包使用R包主題模型,我一直在嘗試獲取delta的值,在我的理解中,主題詞的dirichlet參數。但是,我無法訪問該值。 我只是設法用 [email protected]@delta 或 slot([email protected],"delta") 我知道如何讓阿爾法(DIR參數超過文檔主題)的後驗分佈,這簡直是slot(LDA,"alpha")初始值,但如何得到三角洲? 非常

    0熱度

    1回答

    在培訓主題模型時,MALLET通過使用--output-doc-topics參數生成包含每個文檔主題分佈的製表符分隔文件。它看起來像這樣: doc# filename topic# weight 0 file:/.../document_01.txt 3 0.2110215053763441 14 0.1330645161 ... 但是,我需要此文件以不同的方式排序進一步處理。現在,這些列

    2熱度

    1回答

    我正在分析文本與主題建模和使用Gensim和pyLDAvis。想與遠處的同事分享結果,而不需要他們安裝python和所有必需的庫。 有沒有辦法將交互式圖形導出爲可以上傳到任何Web服務器的HTML/JS文件? 我發現在文檔中提到的某些東西,但不知道如何實現它: https://github.com/bmabey/pyLDAvis/blob/master/pyLDAvis/_display.py

    4熱度

    1回答

    我使用pyspark的LDAModel從語料庫中獲取主題。我的目標是找到與每個文檔相關的主題。爲此,我嘗試根據Docs設置topicDistributionCol。由於我是新手,我不確定本專欄的目的是什麼。 from pyspark.ml.clustering import LDA lda_model = LDA(k=10, optimizer="em").setTopicDistributio

    1熱度

    2回答

    我使用LDA在木槌探索我的數據。我沒有與運行相關的任何問題,只是我需要的頂部詞的概率(比方說20個字) 我使用此查詢: bin\mallet train-topics --input tutorial.mallet --num-topics 40 --optimize-interval 20 --output-state topic-state_doc_40t.gz --output-topic-

    0熱度

    1回答

    library(tm) library(topicmodels) lda_topicmodel <- model_LDA(dtm, k=20, control=list(seed=1234)) 我執行使用在R中LDA功能隱含狄利克雷分佈現在,我在S4對象格式的LDA。 如何將其轉換爲R中的文字 - 主題矩陣和文檔 - 主題矩陣? 不幸的是,'S4'類型的對象不可子集。所以,我不得不求助於復

    1熱度

    1回答

    我有LDA模型和文檔主題概率。 # build the model on the corpus ldam = LdaModel(corpus=corpus, num_topics=20, id2word=dictionary) # get the document-topic probabilities theta, _ = ldam.inference(corpus) 我還需要爲所有主