0

我有一個數據集的短信格式不正確且稀疏,我嘗試使用主題建模來獲取每個可能的主題,每個主題的概率,因爲我需要的概率以及該主題來安排或排列每個消息的主題。我正在考慮的另一種解決方案是手動標記我的數據集並使用監督分類算法,如Naiive Bayes。 這裏是一個稀疏且包含垃圾內容所以這就是爲什麼我認爲主題建模沒有工作我的短信樣本:從短信中提取主題

enter image description here

的挑戰,我面對

  1. 是這是一種正確的思維方式(選擇分類?)還是 這更多是一種無監督的問題或主題建模?

  2. 如何準備數據集:1類爲標籤或所有可能的類別(1 列以上)

  3. 這是一個多標記或者多類分類問題

  4. 對於訓練數據集的每一個消息

回答

1

如果你知道主題是什麼,那麼使用受監督的樸素貝葉斯。無監督學習可以用於課堂發現。

將多個主題分配給樣本不是問題。

樸素貝葉斯根據具有最高概率的主題爲樣本分配標籤。當然,您可以使用最高的x概率(可能有閾值)來分配多個主題。

+0

因此,要確保我得到它的權利如果我手動標記數據,我必須給它超過1標籤的培訓?正如你所說,那麼我可以使用黑客來讓Naiive Bayes使用最高的x主題? – user3379762

+0

我已經在上面附上了我的數據集的副本,以瞭解它是如何稀疏和格式化的,我想確保選擇不使用主題建模是正確的還是不是?因爲它是一組5000個消息,因此手動標記不是最好的事 – user3379762