2017-06-02 61 views
0

我想標籤一些文件,我嘗試了LDA算法,但結果太混亂。我決定使用監督方法,所以我創建了自己的主題詞矩陣,但我不知道如何生成文檔主題矩陣。你知道一些很好的主題建模算法,可以使用主題詞矩陣進行訓練嗎?主題建模與機器學習與LDA

回答

1

如果您確實創建了正確的主題詞矩陣。您只需計算每個文檔的主題權重。例如,您可以使用每個文檔中每個單詞的出現次數,然後總結這些單詞的主題權重。您可能需要添加一些係數,如發生次數,但它非常簡單。

您也可以使用LDA算法,但忽略處理主題詞矩陣的訓練步驟。我不知道你使用哪個實現,但是在Sklearn之後你可以直接傳遞矩陣作爲components_屬性,然後使用transform函數。

+0

感謝您的回答,我使用sklearn實現。我按照你的建議做了,但我得到了這個錯誤:'AttributeError:'LatentDirichletAllocation'對象沒有屬性'exp_dirichlet_component_''我不是機器學習算法的專家,你可以向我解釋如何啓動這個組件? –