2017-04-19 184 views
1

我使用20newsgroups數據集上的python gensim軟件包來擬合分層Dirichlet過程(HDP)主題模型,並且我發現我的主題不是非常豐富(頂級單詞概率非常小)。如何減少gensim的字典大小?

我正在使用標準化文本預處理,其中包括標記化,停用詞刪除和詞幹。我在考慮減小字典大小可以幫助您創建更有意義的主題。有什麼方法可以減少gensim中的字典大小?

回答

1

我發現下面的代碼有助於大大減少字典大小,實現更有意義的主題:

dictionary = corpora.Dictionary(docs, prune_at=num_features) 
dictionary.filter_extremes(no_below=10,no_above=0.5, keep_n=num_features) 
dictionary.compactify() 

減少字典大小的第一次嘗試是prune_at參數,第二次嘗試是filter_extremes()函數定義在: gensim dictionary