2013-02-14 77 views
0

我已經知道如何與Twitter進行交流以及如何檢索推文,但我正在尋找進一步處理這些推文的方法。推文的語義分析

我有兩類食物和運動。現在我想將推文歸類爲食物和體育。任何人都可以請建議我如何分類基於計算機算法?

問候 拉夫

+0

請任何人可以幫助我嗎? – user1344006 2013-02-14 19:40:08

回答

1

我最近在潛伏狄利克雷分配方面做了一些工作。總體思路是文檔包含從主題生成的單詞。你可以嘗試加載文件已知文件的文集是關於你感興趣的話題,用感興趣的推文進行更新,然後選擇與已知文件具有相同主題的強概率的推文。

我使用R代表LDA(包:topicmodels和package:lda),但我認爲這裏也有一些預編譯的python工具。除非你在貝葉斯統計中有堅實的基礎,否則我可能會試圖寫出自己的想法。

下面是該topicmodels包的文檔:http://cran.r-project.org/web/packages/topicmodels/vignettes/topicmodels.pdf

0

我懷疑這一套算法的可能可能在開域分類鳴叫。換句話說,我不認爲一組規則可能會對開放域名推文進行分類。您需要將推文解析爲爲分類定製的語義表示。