我希望編寫一個腳本來解析用戶的推文,並將其分類到之前指定的類別中。例如:將推文分類爲
「如果他被Blairites‘勾引’米利班德將失去競選,稱工會的首席http://bit.ly/145CRAD」
將在政治領域進行分類。
「親愛的薩欽,你40買跑車,有20歲的老金髮甩享受你的中年危機發表IPL爲男孩。 - 你的粉絲」
將分類在領域蟋蟀。
這樣做的最好方法是什麼?
我希望編寫一個腳本來解析用戶的推文,並將其分類到之前指定的類別中。例如:將推文分類爲
「如果他被Blairites‘勾引’米利班德將失去競選,稱工會的首席http://bit.ly/145CRAD」
將在政治領域進行分類。
「親愛的薩欽,你40買跑車,有20歲的老金髮甩享受你的中年危機發表IPL爲男孩。 - 你的粉絲」
將分類在領域蟋蟀。
這樣做的最好方法是什麼?
該文件將是一個不錯的點開始尋找... http://dl.acm.org/citation.cfm?id=1835643 http://www.tmrfindia.org/ijcsa/v9i15.pdf
你正在尋找一個 'Topic Model'。技術包括潛在Dirichlet分配和其他。維基百科文章包含資源鏈接,如Mallet這應該對你有所幫助。
您沒有指定您想要使用的語言,也沒有指定「最好」的意思?最容易實現,最快或最好的結果?
另一種選擇是使用人類(例如亞馬遜Mechanical Turk),它可能會給你提供所有縮寫,諷刺和散列標籤難以分類的推文的'最佳'結果... #notAnEasyProblem。
這是自然語言處理(NLP)領域的一個複雜問題,稱爲document classification。其中最好的開源庫之一由The Stanford NLP Group維護。祝你好運!
lda怎麼樣?話題模型!
你可以嘗試在python在線LDA
http://www.cs.princeton.edu/~blei/topicmodeling.html
然後如果你想嘗試分佈式LDA(更快速)
你可以嘗試輕LDA