我參考了這個類似的查詢twitter/facebook comments classification into various categories但我的問題有點不同。我有一些10k的推文,我想將它們分爲4類,即「旅行」,「購物」,「吃」,「玩」。 現在的事情是,由於推文長度很小,應該使用什麼工具將這些推文分爲這四類?刪除停用詞並清理註釋後,它們的大小會變得更小,以容納任何足夠相關的信息,以將其分爲4類。在這種情況下,哪種算法最適合:「小文本」大小。鳴叫分爲4類
我讀了一些地方,我應該簡單地使用Lucene而不是NLTK。但是,作爲Im新的Lucene我真的不明白Lucene將如何在這種多分類中有任何幫助。
只要你知道你在做什麼(你使用的算法等等) – badc0re 2014-11-14 12:52:41
@ badc0re謝謝你,但是你會建議什麼樣的方法來分類推文,你使用python/java/R哪個平臺真的沒有關係。我應該如何生成這些特徵以便將它們分類到特定的類別中。如果你能記下一些階段性的話,我會非常感激。謝謝一個好朋友! – rzach 2014-11-14 12:55:25