2

我正在研究我的機器學習模型和我擁有的數據的功能。我的數據包含很多文本數據,所以我想知道如何從中提取有價值的功能。相反,我以前的信仰,這往往是由表示與袋的字,或像word2vec:(http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction使用文本情感作爲機器學習模型中的功能?

因爲我對這個問題的理解是有限的,我不明白爲什麼我不能對文本進行分析首先要獲取數值。 (例如:textBlob.sentiment = https://textblob.readthedocs.io/en/dev/,谷歌雲自然語言= https://cloud.google.com/natural-language/

是否有這個問題,我也可以使用這些值作爲擁有我的機器學習模型?

在此先感謝您的幫助!

回答

0

當然,您可以將文本輸入單數轉換爲情感分析,然後將此數字用作機器學習模型中的一個功能。這種方法沒有錯。

問題是你想從文本數據中提取什麼樣的信息。因爲情感分析將文本輸入轉換爲-1到1之間的數字,數字表示文本的正面或負面。例如,您可能需要客戶對餐廳的評論的情緒信息來衡量他們的滿意度。在這種情況下,可以使用情感分析來預處理文本數據。

但是,情感分析只能給出一個關於正面或負面文本的概念。您可能想要對文本數據進行聚類,並且在這種情況下情感信息無用,因爲它不提供有關文本相似性的任何信息。因此,其他方法(如word2vec或bag-of-words)將用於表示這些任務中的文本數據。因爲這些算法提供了單個數字文本實例的矢量表示。

總之,這種方法取決於您需要從您的特定任務的數據中提取什麼樣的信息。

+0

感謝您的回覆!這很有道理,謝謝。我正在根據youtube,twitter和facebook的用戶數據製作預測電影票房成功的模型。我會說,情緒是一個有價值的功能。此外,對我而言,集羣文本是否也適用? – Lourens

+0

不,您的問題不是聚類,而是迴歸或分類任務基於您如何衡量成功。我認爲情緒分析可以解決你的問題。因爲,如果用戶評論對電影的肯定而不是票房真的很成功,反之亦然。 –