如何刪除主題建模(LDA)不必要的信息 你好,我想創建主題建模。 我的數據是這種結構。 1. Doesn't taste good to me.
2. Most delicious ramen I have ever had. Spicy and tasty. Great price too.
3. I have this on my subscription, my family loves
我是主題建模/潛在Dirichlet分配的新手,並且無法理解如何將該概念應用於我的數據集(或者它是否是正確的方法)。 我有少量的文學文本(小說),並希望使用LDA提取一些常規主題。 我在Python中使用gensim模塊以及一些nltk功能。對於測試,我已將原始文本(只有6個)分成30個塊,每個塊包含1000個單詞。然後我將塊轉換爲文檔項矩陣並運行算法。這是代碼(雖然我覺得沒關係的問題): # c