python數據挖掘

我對數據挖掘沒有太多的瞭解，但我需要關於聚類的一些想法。讓我先描述一下我的問題。python數據挖掘

我有大約100張包含用戶評論的數據表。我試圖找到描述質量的單詞。人們可以說這是驚人的質量，另一個人現在可以說質量很高，因此我必須將那些描述這些類似句子的文檔聚類，並獲得這些句子的頻率。這裏適用什麼概念？

猜測我必須指定一些停用詞和同義詞。我對這個概念不太熟悉。

有人能給我一些詳細的鏈接或解釋嗎？以及使用什麼工具？我基本上是一個Python程序員，所以任何Python模塊將不勝感激。

謝謝

2011-04-04 Rkz

我認爲你有一個感傷分析（意見挖掘）的任務在手。你應該看看關於情感分析的文章。 [bing liu的感傷分析頁面]（http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html）另外看看nltk，它會對你的任務非常有用。 – viper 2012-11-28 05:53:58

有http://www.nltk.org/語言處理。藉助這個庫，您可以將文本拆分爲句子，計算術語頻率，查找同義詞等等。

Carrot^2是一個不錯的開源項目，用於聚集文本片段，不幸的是它是用Java編寫的。其聚類背後的想法是術語和短語（bigrams和trigrams）頻率。在預處理每個文檔（片段，評論）之後，將其表示爲術語/短語頻率的向量。爲了計算羣集，他們使用一些線性代數，並找到這個空間中的主要成分。然後這些組件用於爲它們形成集羣和標籤。

在這種情況下，值得將評論作爲文檔來考慮，將它們集羣併爲集羣獲取標籤。可能是標籤會以某種方式評估評論。

在特定情況下，它是值得消除感興趣的詞如此大幅度降低維度，這是非常關鍵的，這樣的任務

另一個有用的項目 - montylingua

來源

2011-04-04 07:31:37 Andrey

增加了一些建議 – Andrey 2011-04-04 08:08:33