我目前正在開發一個項目,我正在接收電子郵件,使用電子郵件包剝離郵件正文,然後我想用體育,政治,技術等標籤對它們進行分類。等等...我已經成功地從我的電子郵件中刪除了郵件正文。我期待着開始分類。標籤文本文檔 - 受監督的機器學習
爲了製作多個標籤,如運動,科技,政治,娛樂等,我需要每個標籤的一組詞語來製作標籤。舉例
體育標籤將標籤數據:足球,足球,曲棍球......
我在哪裏可以找到網上的標籤數據,以幫助我嗎?
我目前正在開發一個項目,我正在接收電子郵件,使用電子郵件包剝離郵件正文,然後我想用體育,政治,技術等標籤對它們進行分類。等等...我已經成功地從我的電子郵件中刪除了郵件正文。我期待着開始分類。標籤文本文檔 - 受監督的機器學習
爲了製作多個標籤,如運動,科技,政治,娛樂等,我需要每個標籤的一組詞語來製作標籤。舉例
體育標籤將標籤數據:足球,足球,曲棍球......
我在哪裏可以找到網上的標籤數據,以幫助我嗎?
你正在試圖做的,什麼叫主題建模: https://en.wikipedia.org/wiki/Topic_model
的主題列表是非常依賴於你的訓練數據集,併爲您建立這個最終目的。 一個很好的開始可以在這裏: https://nlp.stanford.edu/software/tmt/tmt-0.4/
你可以看看他們的話題,但你可能還用它來給一些初始話題您的數據,只是他們的話題上面工作。
我有主題/標籤列表,我有內容。 – SecQuestionnA
您可以使用BBC數據集。 它已標記新聞文章,可以幫助。
進行特徵提取,刪除停用詞,詞幹做,使用正克與TF-IDF,和不是選擇最好的功能
您可以使用DMOZ。
被獎勵,有不同種類的文字。對於e.g最常見的一個詞在電子郵件文本將Hi
或Hello
但在維基文本Hi
和Hello
不會是常用詞
我不知道這是一個計算器的類型的問題。如果您已經擁有電子郵件,則可以嘗試使用LDA提取主題詞。 –