2011-04-04 123 views
3

我對數據挖掘沒有太多的瞭解,但我需要關於聚類的一些想法。讓我先描述一下我的問題。python數據挖掘

我有大約100張包含用戶評論的數據表。我試圖找到描述質量的單詞。人們可以說這是驚人的質量,另一個人現在可以說質量很高,因此我必須將那些描述這些類似句子的文檔聚類,並獲得這些句子的頻率。這裏適用什麼概念?

猜測我必須指定一些停用詞和同義詞。我對這個概念不太熟悉。

有人能給我一些詳細的鏈接或解釋嗎?以及使用什麼工具?我基本上是一個Python程序員,所以任何Python模塊將不勝感激。

謝謝

+0

我認爲你有一個感傷分析(意見挖掘)的任務在手。你應該看看關於情感分析的文章。 [bing liu的感傷分析頁面](http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html)另外看看nltk,它會對你的任務非常有用。 – viper 2012-11-28 05:53:58

回答

4

http://www.nltk.org/語言處理。藉助這個庫,您可以將文本拆分爲句子,計算術語頻率,查找同義詞等等。

Carrot^2是一個不錯的開源項目,用於聚集文本片段,不幸的是它是用Java編寫的。其聚類背後的想法是術語和短語(bigrams和trigrams)頻率。在預處理每個文檔(片段,評論)之後,將其表示爲術語/短語頻率的向量。爲了計算羣集,他們使用一些線性代數,並找到這個空間中的主要成分。然後這些組件用於爲它們形成集羣和標籤。

在這種情況下,值得將評論作爲文檔來考慮,將它們集羣併爲集羣獲取標籤。可能是標籤會以某種方式評估評論。

在特定情況下,它是值得消除感興趣的詞如此大幅度降低維度,這是非常關鍵的,這樣的任務

另一個有用的項目 - montylingua

+0

增加了一些建議 – Andrey 2011-04-04 08:08:33