0
我有一個數據集的短信格式不正確且稀疏,我嘗試使用主題建模來獲取每個可能的主題,每個主題的概率,因爲我需要的概率以及該主題來安排或排列每個消息的主題。我正在考慮的另一種解決方案是手動標記我的數據集並使用監督分類算法,如Naiive Bayes。 這裏是一個稀疏且包含垃圾內容所以這就是爲什麼我認爲主題建模沒有工作我的短信樣本:從短信中提取主題
的挑戰,我面對
是這是一種正確的思維方式(選擇分類?)還是 這更多是一種無監督的問題或主題建模?
如何準備數據集:1類爲標籤或所有可能的類別(1 列以上)
這是一個多標記或者多類分類問題
對於訓練數據集的每一個消息
因此,要確保我得到它的權利如果我手動標記數據,我必須給它超過1標籤的培訓?正如你所說,那麼我可以使用黑客來讓Naiive Bayes使用最高的x主題? – user3379762
我已經在上面附上了我的數據集的副本,以瞭解它是如何稀疏和格式化的,我想確保選擇不使用主題建模是正確的還是不是?因爲它是一組5000個消息,因此手動標記不是最好的事 – user3379762