topic-modeling

    3熱度

    1回答

    我一直在做一個研究項目的自然語言敘述報告的LDA主題模型(使用Gensim和python)。我有幾個較小的語料庫(從1400到200個文檔 - 我知道,這很小!),我想比較,但我不知道怎麼做,除了看每個LDA模型(例如pyLDAviz) 。我的學術背景不在CS,而且我對NLP還是有點新的。 跨語料庫/主題模型比較話題有哪些好方法?例如,是否有可能估計兩個LDA模型重疊?或者還有其他方法來評估幾個語

    2熱度

    2回答

    在MALLET主題建模中,--output-topic-keys [FILENAME]選項在每個主題旁邊輸出一個參數,該參數在MALLET站點的教程中稱爲主題的「Dirichlet參數」。 我想知道這個參數代表什麼?在LDA模型中它是β嗎?如果不是,它是什麼意思和用途。 我注意到,當我在生成主題模型時未使用參數優化選項時,此參數在版本2.0.7中與2.0.8版中不同。我想知道爲什麼會發生這種差異。

    1熱度

    1回答

    我有一個訓練有素的Word2vec模型,使用Python的Gensim庫。我有一個標記化列表如下。該翻譯大小是34,但我在這裏只給數出34: b = ['let', 'know', 'buy', 'someth', 'featur', 'mashabl', 'might', 'earn', 'affili', 'commiss', 'fifti', 'year', 'ago

    0熱度

    1回答

    這可能是我即將問到的天真問題。我有一個標記化的語料庫,我已經訓練了Gensim的Word2vec模型。代碼如下 site = Article("http://www.datasciencecentral.com/profiles/blogs/blockchain-and-artificial-intelligence-1") site.download() site.parse() def

    0熱度

    1回答

    我是新來的主題建模和種類的困惑。我已經多次用不同的主題數量值運行MALLET。那麼我怎麼知道選擇哪一個進行進一步分析呢?我知道有些論文涉及主題模型的評估,但我不能編寫這樣的代碼。

    0熱度

    2回答

    我正在對從我的數據集開始的數據集進行LDA主題建模,這些推文是從預處理後的9582個文檔和4144個條目組成的多個twitter帳戶收集的。爲了運行LDA函數,我必須定義參數值,以控制在運行模型時進行多少吉布斯抽樣繪製。 fitted_many <- lapply(sequ, function(k) LDA(dtmTopicModeling, k = k, method = "Gibbs",co

    1熱度

    1回答

    我試圖找到使用sklearn的LDA模型的最佳主題數量。要做到這一點,我通過引用https://gist.github.com/tmylk/b71bf7d3ec2f203bfce2上的代碼來計算困惑。 但是當我增加話題的數量時,困惑總會非理性地增加。我在實現中遇到錯誤還是隻能提供正確的值? from __future__ import print_function from time impor

    0熱度

    1回答

    我有一個數據集的短信格式不正確且稀疏,我嘗試使用主題建模來獲取每個可能的主題,每個主題的概率,因爲我需要的概率以及該主題來安排或排列每個消息的主題。我正在考慮的另一種解決方案是手動標記我的數據集並使用監督分類算法,如Naiive Bayes。 這裏是一個稀疏且包含垃圾內容所以這就是爲什麼我認爲主題建模沒有工作我的短信樣本: 的挑戰,我面對 是這是一種正確的思維方式(選擇分類?)還是 這更多是一種無

    0熱度

    1回答

    當STM模型收斂時,R相對頻繁地崩潰。在30小時以上的評估會議後,參見下面的圖例。這發生在兩臺不同的計算機上,具有不同的數據大小。我一直無法確定導致這些崩潰的任何特定模式 - 因爲崩潰似乎不是確定性的。 模型估計的設置是 # full Year <- year(df$date) # year data from the environment stmFit.full <- stm(out$d

    0熱度

    1回答

    我正在語言學論文上進行主題建模,並使用Gensim短語來標識頻繁搭配。我希望能夠將術語標記爲「do-support」和「it-cleft」作爲一個單詞,因爲它們是特定的語言術語。然而,如果我在取出停用詞後製作Gensim模型,則不會找到這些搭配(因爲它們包含停用詞),如果在取出停用詞(或不包括「it」或「do」的停用詞)後製作模型,它確定了大量不相關的搭配。有沒有辦法手動添加應該被Gensim短語