2014-11-14 70 views
0

我參考了這個類似的查詢twitter/facebook comments classification into various categories但我的問題有點不同。我有一些10k的推文,我想將它們分爲4類,即「旅行」,「購物」,「吃」,「玩」。 現在的事情是,由於推文長度很小,應該使用什麼工具將這些推文分爲這四類?刪除停用詞並清理註釋後,它們的大小會變得更小,以容納任何足夠相關的信息,以將其分爲4類。在這種情況下,哪種算法最適合:「小文本」大小。鳴叫分爲4類

我讀了一些地方,我應該簡單地使用Lucene而不是NLTK。但是,作爲Im新的Lucene我真的不明白Lucene將如何在這種多分類中有任何幫助。

+0

只要你知道你在做什麼(你使用的算法等等) – badc0re 2014-11-14 12:52:41

+0

@ badc0re謝謝你,但是你會建議什麼樣的方法來分類推文,你使用python/java/R哪個平臺真的沒有關係。我應該如何生成這些特徵以便將它們分類到特定的類別中。如果你能記下一些階段性的話,我會非常感激。謝謝一個好朋友! – rzach 2014-11-14 12:55:25

回答

0

那麼你可以嘗試naive bayesrandom forest或者你可以用無監督算法試圖像EM(然後定義基於集羣的分組標籤)。 請注意所有類中使用的常用詞。您可以嘗試使用AUC等評估您的表現。同時嘗試找到選擇功能的方法,稱爲互信息

祝您好運!

+0

您好,我嘗試了每個標籤的100個文檔的手動標籤。現在我有四個類別的100個例子。我現在應該使用哪種分類器。 – rzach 2014-11-18 09:54:33

+0

要獲得訓練數據並不那麼簡單,您還應該分析哪些功能用於每個課程並消除不必要的噪音。如果你只想看看整個過程是如何工作的,你可以使用樸素貝葉斯,並查看類的先驗概率或特徵的聯合概率。 – badc0re 2014-11-18 10:52:30

+0

感謝哥們,能否請您建議如何做到這一點樸素貝葉斯,然後我會準備趕上。或者一個教程與你剛剛寫的內容有關,因爲有太多的問題,我不知道哪一個可以遵循我的案例。從我發佈它的那一天起,我一直在研究這個問題,因此我保留只有在我遇到困難時纔會回來。萬分感謝。 – rzach 2014-11-18 13:02:32