sentiment-analysis

    2熱度

    1回答

    我正在研究我的機器學習模型和我擁有的數據的功能。我的數據包含很多文本數據,所以我想知道如何從中提取有價值的功能。相反,我以前的信仰,這往往是由表示與袋的字,或像word2vec:(http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction) 因爲我對這個問題的理解是有限的,我不明白爲什

    0熱度

    1回答

    我正在開發一個R項目。我使用的數據集在以下鏈接處可用 https://www.kaggle.com/ranjitha1/hotel-reviews-city-chennai/data 我已經使用的代碼是。 df1 = read.csv("chennai.csv", header = TRUE) library(tidytext) tidy_books <- df1 %>% unnest_tok

    -5熱度

    1回答

    labelTrainData.csv用於訓練分類器以預測Testdata.csv的情感。最後我得到了BagOfCentroids.csv。 labelTrainData.csv id sentiment Tweet 1 0 tweet_1 2 1 tweet_2 3 0 tweet_3 Testdata.csv id Tweet 1 tweet_1 2 tweet_

    0熱度

    1回答

    Tgus代碼展示瞭如何從鳴叫轉推選項情感分析的情況下,R. tweets <- searchTwitter("iPhone", n=1500, lang="en") txt <- sapply(tweets, function(x) x$getText()) txt <- gsub("(RT|via)((?:\\b\\W*@\\w+)+)", "", txt) 我也不是什麼不解的是,在gs

    0熱度

    1回答

    通過張量流實現tflearn的lstm imdb example。 我使用了與tflearn模型相同的數據集,體系結構和超參數(嵌入大小,句子的最大長度等),但是我的模型的性能比tflearn示例差(10個曆元後,我的模型得到了精度約爲52%,而實例接近80%)。 如果您能給我一些建議以達到示例的適當性能,我會非常感激。 下面是我的代碼: import tensorflow as tf from

    2熱度

    1回答

    已更新: 我正在爲我的最終項目建立一個神經網絡,我需要一些幫助。 我正在嘗試構建一個rnn來對西班牙文本進行情感分析。我有20萬左右標記的鳴叫,我使用word2vec與西班牙嵌入 數據集&矢量矢量其中: 我刪除重複和分裂成集訓練和測試集。 向量化時應用填充,未知和句子結束標記。 我將@mentions映射到word2vec模型中的已知名稱。例如:@iamthebest => 「約翰」 我的模型:

    0熱度

    1回答

    任何人都可以在R中的SentimentAnalysis包中解釋GI,HE,LM,QDAP的含義嗎?如果我們看一下上面提到的每一個列,給出多個答案,使用這個包來識別一個句子的極性的最好方法是什麼?

    0熱度

    1回答

    我試圖在R約40000行的數據集上運行stemmer函數(通過data.table包上傳),但它需要永久運行。我的代碼如下所示: data[, Description := map(Description, function(k) stemmer(k))] 如果手動停止的過程中,它顯示超過50級的警告爲: Image Link 是否有更快的運行它的替代品。我的電腦有8Gb內存。

    -2熱度

    1回答

    我是Twitter API的初學者。我將爲我的論文進行情緒分析。所以我需要儘可能多的來自Twitter的數據(用戶的評論)。 但是,我聽說Twitter的政策去年發生了變化。它的政策限制了用戶收集大量數據。所以我想知道可以收集多少鳴叫(例如5000數據)。因爲如果他們限制我的訪問令牌,那麼我必須改變它。另外,我不知道它們限制了我的訪問令牌或IP地址。 我使用Python與Anaconda,程序將在

    1熱度

    1回答

    我對我已經獲取的一組Twitter數據執行不同的情感分析技術。它們基於詞典(Vader Sentiment和SentiWordNet),因此不需要預先標記的數據。 我想知道是否有方法(如F-Score,ROC/AUC)來計算分類器的準確性。我所知道的大多數方法都需要一個目標來比較結果。