鳴叫分爲4類

我參考了這個類似的查詢twitter/facebook comments classification into various categories但我的問題有點不同。我有一些10k的推文，我想將它們分爲4類，即「旅行」，「購物」，「吃」，「玩」。現在的事情是，由於推文長度很小，應該使用什麼工具將這些推文分爲這四類？刪除停用詞並清理註釋後，它們的大小會變得更小，以容納任何足夠相關的信息，以將其分爲4類。在這種情況下，哪種算法最適合：「小文本」大小。鳴叫分爲4類

我讀了一些地方，我應該簡單地使用Lucene而不是NLTK。但是，作爲Im新的Lucene我真的不明白Lucene將如何在這種多分類中有任何幫助。

來源

2014-11-14 rzach

只要你知道你在做什麼（你使用的算法等等） – badc0re 2014-11-14 12:52:41

@ badc0re謝謝你，但是你會建議什麼樣的方法來分類推文，你使用python/java/R哪個平臺真的沒有關係。我應該如何生成這些特徵以便將它們分類到特定的類別中。如果你能記下一些階段性的話，我會非常感激。謝謝一個好朋友！ – rzach 2014-11-14 12:55:25

那麼你可以嘗試naive bayes，random forest或者你可以用無監督算法試圖像EM（然後定義基於集羣的分組標籤）。 請注意所有類中使用的常用詞。您可以嘗試使用AUC等評估您的表現。同時嘗試找到選擇功能的方法，稱爲互信息

祝您好運！

來源

2014-11-14 13:01:10 badc0re

您好，我嘗試了每個標籤的100個文檔的手動標籤。現在我有四個類別的100個例子。我現在應該使用哪種分類器。 – rzach 2014-11-18 09:54:33

要獲得訓練數據並不那麼簡單，您還應該分析哪些功能用於每個課程並消除不必要的噪音。如果你只想看看整個過程是如何工作的，你可以使用樸素貝葉斯，並查看類的先驗概率或特徵的聯合概率。 – badc0re 2014-11-18 10:52:30

感謝哥們，能否請您建議如何做到這一點樸素貝葉斯，然後我會準備趕上。或者一個教程與你剛剛寫的內容有關，因爲有太多的問題，我不知道哪一個可以遵循我的案例。從我發佈它的那一天起，我一直在研究這個問題，因此我保留只有在我遇到困難時纔會回來。萬分感謝。 – rzach 2014-11-18 13:02:32

鳴叫分爲4類

回答

相關問題