2013-02-20 43 views
-4

即使是電子工程專業的第二年級學生,我也有這個關於推特信息數據挖掘的第二年項目,說實話,我對如何做到這一點一無所知!所有我發現的是,我需要第一個得到推文,我發現很多網站可以做到這一點對我來說,最好的一個是tweetarchivist.com,它允許我保存我的結果作爲xls文件,我現在掙扎的問題是數據挖掘過程,因此我決定開發一個想法,我已經在幾個網站上看到它,它根據某些關鍵詞將特定的推文(例如電影)分類爲正面和負面,但我不知道該怎麼做..我讀了一些關於使用「蟒蛇和NLTK(樸素貝葉斯分類器)」的信息,但老實說,我對Python語言或除java以外的任何其他語言(只有基本命令)一無所知。所以請任何人都可以幫助我,並建議好的和容易的數據挖掘工具,可以執行我想要的? 我沒有太多時間,所以如果你有任何線索,請發佈,我將非常感激!將推特信息分類爲正面和負面推文

+2

這是一個很糟糕的SO帖子,尤其是它的懶惰,但mayyyy更適合程序員.stackexchange.com。雖然不是目前的形式。 – 2013-02-20 20:21:31

+0

我剛開始時就有一份合同職位,從來沒有這樣做過。事實證明,這非常困難。在我能夠取得任何實際進展之前,公司走向另一個方向。當你引入嘲諷和否定詞語(不)時,問題就出現了。他們徹底改變了句子的閱讀方式。 NLTK是我使用的很好的工具,但背後有很多很多。 – Hoopdady 2013-02-20 20:23:43

回答

1

這是一個地方開始(link to pdf file)。作者用簡單的樸素貝葉斯分類器得到了很大的提高。希望你今晚不打算完成這個...

無論如何,快樂的編碼!

+1

我其實已經有一個星期的時間來完成它了..我已經閱讀過這篇論文,但是沒有太多有關編碼的信息! – user2088978 2013-02-20 21:02:50

+0

哦,我明白了。這個問題被不當地標記。去下載RapidMiner或Weka。你不需要Python。 – BenDundee 2013-02-20 21:10:59

+0

是啊對不起,我是新來的,我已經下載了WEKA,我不確定WEKA是否有能力做我想做的事(分類爲正面和負面的推文),除此之外,我已經讀到WEKA並不適合文本挖掘! – user2088978 2013-02-20 21:16:18