topicmodels

    1熱度

    1回答

    我想使用Mallet作爲專家查找項目的一部分。我幾乎是馬利特的新手,但我知道它從一組文檔中培養主題。假設我有50個由Mallet培訓的主題。我想計算這個概率:p(topic|q)或者p(q|topic) q是查詢。這是一個詞(如算法,機器人等),我希望找到指定區域的專家。 當我讀到這篇文章:how to get word-topic probability using mallet,其中一位用戶說

    1熱度

    2回答

    我想使用木槌作爲培訓主題。我的數據在一個文件中,所以我研究瞭如何構建這個One Single文件的木槌文檔。 在Mallet website,每行部分一個文件,一個實例下,有人說: [URL] [語言] [頁的文字...] 在這種情況下,每行的第一個標記 (空格分隔,帶有可選逗號)將成爲實例名稱,第二個標記將成爲標籤,並且該行上的所有其他 文本將被解釋爲一系列的單詞標記。 所以根據上述報價,我創造

    2熱度

    1回答

    我想知道不同的軟件包,因此,算法的結果有什麼不同,以及參數是否可以設置爲產生類似的主題。我特別看了包text2vec和topicmodels。 我使用下面的代碼來比較使用這些包生成的10個主題(請參閱代碼部分的術語)。我無法設法產生具有類似含義的主題集。例如。來自text2vec的話題10與「警察」有關,topicmodels所產生的主題都不涉及「警察」或類似術語。此外,我無法確定由topicmo

    0熱度

    1回答

    我在Linux中執行了LDA,並且在主題2中沒有得到像「ø」這樣的字符。但是,它們在Windows中運行時顯示。有誰知道如何處理這個?我使用包quanteda和topicmodels。 > terms(LDAModel1,5) Topic 1 Topic 2 [1,] "car" "ø" [2,] "build" "ù" [3,] "work" "network" [4,] "drive

    1熱度

    1回答

    我用下面的代碼來創建主題模型的列表,其中主題數26〜35,按1: best.model <- lapply(seq(26,35, by=1), function(d){LDA(dtm2, d, method = "Gibbs", control = list(burnin = burnin, iter = iter, keep = keep))}) 當我打電話best.model,我得到: >

    0熱度

    1回答

    從這個問題可能會或可能不明顯,我對R來說很新,而且我可以在這方面提供一些幫助。 創建主題模型時,我已經嘗試了LDA和LDAvis - 下面(A)和(B)中的代碼。 (A)中的LDA使我能夠找到我的語料庫中每個文檔中出現的主題的後驗概率,我曾經用其他數據集中的變量運行迴歸。 (B)中,使用LDAvis的主題生成方法生成的是比(A)更好,更一致的主題,但是我一直未能找出如何找出給定文檔中出現的主題的後

    0熱度

    1回答

    我是Cytoscape.js的新手,所以我可能會丟失一些明顯的... 我知道如何在D3.js中做到這一點,但需要更多的權力來顯示大量節點的聚類(> 1,000)並且不需要可視化鏈接。 在此先感謝指着我在正確的方向...

    -1熱度

    1回答

    當我運行我的topicmodel代碼時,發生了一個非常奇怪的錯誤。 基本上我有一個包含用戶註釋的.csv文件。我想創建一個dtm,每個註釋都是一個文檔。我採取了8K評論的樣本,並使用以下代碼: > #LOAD LIBRARYS > > library(tm) > library(SnowballC) > library(stringr) > library(tictoc) > tic(

    5熱度

    1回答

    忍受我,因爲我對此非常陌生,並且正在爲證書課程中的課程工作。 我有.csv數據集,我通過從Pubmed和Embase數據庫檢索文獻計量記錄獲得。有1034行。有幾列,但是,我試圖從一列,抽象列和一些記錄沒有摘要​​創建主題模型。我已經做了一些處理(刪除停用詞,標點符號等),並且已經能夠對出現超過200次的單詞進行barplot繪圖,並且通過排名創建一個頻繁詞語列表,並且還可以運行與所選單詞的單詞關

    0熱度

    1回答

    當我將整潔函數應用於數據集中LDA模型的結果時,出現以下錯誤「Error in eval(替代(expr),envir,enclos):未找到綁定:'Var1'「。在關聯的印刷機示例上使用時會出現相同的錯誤,如下所示。我試圖通過devtools :: install_github(「juliasilge/tidytext」)重新安裝tidytext,我仍然得到相同的結果。有什麼我可以嘗試嗎? 庫(