2013-04-24 47 views
1

我希望編寫一個腳本來解析用戶的推文,並將其分類到之前指定的類別中。例如:將推文分類爲

「如果他被Blairites‘勾引’米利班德將失去競選,稱工會的首席http://bit.ly/145CRAD

將在政治領域進行分類。

「親愛的薩欽,你40買跑車,有20歲的老金髮甩享受你的中年危機發表IPL爲男孩。 - 你的粉絲」

將分類在領域蟋蟀。

這樣做的最好方法是什麼?

回答

4

你正在尋找一個 'Topic Model'。技術包括潛在Dirichlet分配和其他。維基百科文章包含資源鏈接,如Mallet這應該對你有所幫助。

您沒有指定您想要使用的語言,也沒有指定「最好」的意思?最容易實現,最快或最好的結果?

另一種選擇是使用人類(例如亞馬遜Mechanical Turk),它可能會給你提供所有縮寫,諷刺和散列標籤難以分類的推文的'最佳'結果... #notAnEasyProblem。