標題說明了一切;我有一個SQL數據庫用線上對話文本在接縫處爆裂。我已經使用Python完成了這個項目的大部分工作,所以我想用Python的NLTK庫來完成這個工作(除非有一個強的原因)。LARGE在線對話文本集的情感分析
的數據由主題,用戶名,並後組織。每條線索或多或少都着重討論我感興趣分析的一類「產品」。最終,當這些完成時,我希望每個用戶對他們在某個時候討論過的任何產品有一個估計的意見(喜歡/不喜歡某種交易)。
所以,我想知道:
1)我如何去確定每一個線程是什麼產品?我正在閱讀關於關鍵字提取...是正確的方法?
2)如何根據他們的帖子確定特定的用戶情緒?從我有限的理解中,我必須首先「訓練」NLTK來識別某些意見指標,然後我才簡單地確定這些詞語出現在文本中的上下文嗎?你可能已經猜到了,我沒有使用過NLP的經驗。從我讀到目前爲止,我認爲我可以處理它。如果有人能夠指引我朝着正確的方向發展,那麼即使只是現在的基本和粗略的工作模式也會很好。谷歌對我不是很有幫助。
P.S.我有權分析此數據(如果它很重要)
你有沒有標籤的數據? – placeybordeaux 2013-03-10 19:48:28
不,就是這樣。我一直在儘自己所能做到這一點......標記數據聽起來像是一個非常耗時/麻煩的麻煩任務。是否絕對需要衡量情緒?如果是這樣,我會考慮也許把它放在Mechanical Turk或類似的東西上...... – araisbec 2013-03-10 20:01:29
我知道的所有學習算法都要求您有一個訓練數據集,您可以使用它來構建模型。然後你可以在未標記的數據上釋放它。 – BenDundee 2013-03-10 22:12:51