Python中的文本聚類後的完全相同的羣集

我正在Python中對一組文本數據執行文本聚類。基本上，我使用TF IDF得分，然後應用結果矩陣爲k均值算法就是這樣：Python中的文本聚類後的完全相同的羣集

vect = TfidfVectorizer(min_df=100,stop_words=sw) 

dtm = vect.fit_transform(df) 
l=vect.get_feature_names() 

k = 15 
model = MiniBatchKMeans(n_clusters=k) 
model.fit(dtm) 

order_centroids = model.cluster_centers_.argsort()[:, ::-1] 
terms = vect.get_feature_names() 
for i in range(k): 
     print("Cluster %d:" % i, end='') 
     for ind in order_centroids[i, :100]: 
      print(' %s' % l[ind], end='') 
     print()

然後執行以下後，我得到15個相同的羣集（與它幾乎完全一致字計算）。我也嘗試使用LSA方法進行歸一化，但它幾乎相同。

我在做什麼錯，怎麼修復？

來源

2017-08-08 HalfPintBoy

你可以上傳數據？你也使用什麼版本的sklearn？ – sera

我的猜測是您的功能不是標準化的，這意味着dtm中的某些列包含以較高的均值爲中心的分佈。因此，用於提取羣集關聯功能的排序將錯誤地支持這些功能。

一種常見的做法，以避免此類問題是standardize的功能zero mean和unit variance這樣的：

dtm_standardized = (dtm - dtm.mean(axis=0))/dtm.std(axis=0)

或像這樣：

dtm_standardized = sklearn.preprocessing.scale(dtm)

來源

2017-08-08 16:58:27 WhoIsJack

Python中的文本聚類後的完全相同的羣集

回答

相關問題