2017-07-16 101 views
2

我目前正在開發一個項目,我正在接收電子郵件,使用電子郵件包剝離郵件正文,然後我想用體育,政治,技術等標籤對它們進行分類。等等...我已經成功地從我的電子郵件中刪除了郵件正文。我期待着開始分類。標籤文本文檔 - 受監督的機器學習

爲了製作多個標籤,如運動,科技,政治,娛樂等,我需要每個標籤的一組詞語來製作標籤。舉例

體育標籤將標籤數據:足球,足球,曲棍球......

我在哪裏可以找到網上的標籤數據,以幫助我嗎?

+1

我不知道這是一個計算器的類型的問題。如果您已經擁有電子郵件,則可以嘗試使用LDA提取主題詞。 –

回答

0

你正在試圖做的,什麼叫主題建模: https://en.wikipedia.org/wiki/Topic_model

的主題列表是非常依賴於你的訓練數據集,併爲您建立這個最終目的。 一個很好的開始可以在這裏: https://nlp.stanford.edu/software/tmt/tmt-0.4/

你可以看看他們的話題,但你可能還用它來給一些初始話題您的數據,只是他們的話題上面工作。

+0

我有主題/標籤列表,我有內容。 – SecQuestionnA

0

您可以使用BBC數據集。 它已標記新聞文章,可以幫助。

進行特徵提取,刪除停用詞,詞幹做,使用正克與TF-IDF,和不是選擇最好的功能

1

您可以使用DMOZ

被獎勵,有不同種類的文字。對於e.g最常見的一個詞在電子郵件文本將HiHello但在維基文本HiHello不會是常用詞