2016-11-06 233 views
0

我有一個任務,將一部看不見的電影評論分類爲肯定評論或否定評論。我有兩個文件夾neg和pos,每個文件夾包含1,000個文件,這些文件是已經被分類的電影評論。Python:樸素貝葉斯電影評論

到目前爲止,我所做的是加載正面評論,並且我將每個單詞與每個單詞出現的頻率一起存儲在字典中。然後我將每個單詞頻率除以正文件夾文件中的單詞總量。我對負文件夾做了同樣的事情。

我現在堅持下一步要去哪裏。最後,我將不得不加載一個看不見的評論,並確定評論是積極還是消極。我不是在尋找任何代碼,只是爲了達到這個目的我需要做下一步的工作。任何幫助大大appriciated,謝謝!

+0

你說「我不是在尋找任何代碼,只是指導」:所以在[代碼評論](http://codereview.stackexchange.com/)上發佈你的問題 –

+3

@LaurentLAPORTE這似乎並不像它在任何地方接近代碼審查的主題。我們應該擺脫向[代碼評論](http://codereview.stackexchange.com/tour)發送提問者的習慣。請閱讀[this](http://meta.codereview.stackexchange.com/questions/5777/a-guide-to-code-review-for-stack-overflow-users)meta post澄清。 – idjaw

+3

這個問題對於StackOverflow來說有點寬泛。既然你現在已經有了一些你的要求,現在你還有一個你有困難的任務。我可以給出的一些建議是嘗試構建並嘗試您嘗試添加的剩餘功能。然後,收集你的困難,並將其作爲一個問題發佈在這裏。這將使它成爲主題,並更傾向於*好的*有用的答案。希望這可以幫助。祝你好運。 – idjaw

回答

2

你所描述的問題是一個典型的情感分析問題,你所做的評論稱爲語言模型(單詞,概率)格式。我建議你觀看Dan Jurafsky教授關於情感分析的視頻系列,作爲斯坦福大學NLP here課程的一部分。 Harrison Kinsley在NLTK [一個用於NLP相關任務的python模塊]上的另一個很好的實用tutorial將向您展示如何使用NLTK和Scikit-learn [用於ML任務的流行python模塊]使用NB分類器和其他許多分類器進行分類。

+0

嗨[:您鏈接的資源非常有趣且有幫助。然而,我覺得這個答案更適合評論。只有當你真誠地幫助你時,不要低估,特別是當問題可以被標記爲基於opnion的時候。 – randomhopeful

+0

OP正在尋找「指導」,而不是他/她描述的代碼,所以我指出他/她和其他任何可能將他/她的問題執行簡單的情緒分析任務的人指向基本,簡明但信息豐富的集合關於這個問題的講座。 – 7kemZmani

+0

絕對[:我說OP在尋找意見,而不是代碼,這是不允許的。因此,您需要以MCVE格式發佈代碼,並輸出期望的輸出和當前不需要的輸出。我也強調你的貢獻是相當有幫助的。我正在看演講。這只是一個頭,夥計[:隨意忽略它。 – randomhopeful

0

這裏最好的指導可能是Udacity ML課程...他們使用優秀的scikit學習庫來分類使用樸素貝葉斯的郵件,特別是NB的高斯風味;這聽起來就像你有問題:

https://www.udacity.com/course/intro-to-machine-learning--ud120

如果你是這些概念已經舒服,你樂於使用SK-學然後直接跳到這裏的文檔:

http://scikit-learn.org/stable/modules/naive_bayes.html#multinomial-naive-bayes

一旦數據以正確的形式出現,擬合模型然後進行預測對於SK學習來說實際上是微不足道的。