Python：基於word2vec對類似單詞進行聚類

這可能是我即將問到的天真問題。我有一個標記化的語料庫，我已經訓練了Gensim的Word2vec模型。代碼如下Python：基於word2vec對類似單詞進行聚類

site = Article("http://www.datasciencecentral.com/profiles/blogs/blockchain-and-artificial-intelligence-1") 
site.download() 
site.parse() 

def clean(doc): 
    stop_free = " ".join([i for i in word_tokenize(doc.lower()) if i not in stop]) 
    punc_free = ''.join(ch for ch in stop_free if ch not in exclude) 
    normalized = " ".join(lemma.lemmatize(word) for word in punc_free.split()) 
    snowed = " ".join(snowball.stem(word) for word in normalized.split()) 
    return snowed 

b = clean(site.text) 
model = gensim.models.Word2Vec([b],min_count=1,size=32) 
print(model) ### Prints: Word2Vec(vocab=643, size=32, alpha=0.025) ####

要聚類相似的單詞，我使用PCA來可視化類似單詞的聚類。但問題在於，它只能形成圖像中看到的大集羣。

PCA &散點圖代碼：

vocab = list(model.wv.vocab) 
X = model[vocab] 
pca = PCA(n_components=2) 
X_pca = pca.fit_transform(X) 

df = pd.concat([pd.DataFrame(X_pca), 
       pd.Series(vocab)], 
       axis=1) 
df.columns = ['x','y','word'] 

fig = plt.figure() 
ax = fig.add_subplot(1,1,1) 
ax.scatter(df['x'],df['y']) 
plt.show()

所以，我有三個問題在這裏：

1）只是一文足有集羣的明確分離？ 2）如果我有一個訓練有龐大語料庫的模型，並且我想要預測新文章中的相似單詞，並以集羣的形式對它們進行可視化（即我預測的文章中的單詞），那麼有沒有如何做到這一點？

我非常感謝您的建議。謝謝。

來源

2017-07-31 Krishnang K Dalal

不，不是真的。作爲參考，在維基百科上訓練的常見word2vec模型（英文版）包含大約30億字。
您可以使用KNN（或類似的東西）。 Gensim有most_similar函數來獲取最接近的單詞。使用維度減少（如PCA或tsne），您可以獲得一個很好的羣集。（不知道如果gensim有tsne模塊，但sklearn有，所以你可以使用它）

btw你指的是一些圖像，但它不可用。

來源

2017-08-01 17:55:29 lazary

謝謝@lazary。是的，我完全同意培訓數據大小的要求。我使用了k-means集羣，然後給了我很好的清晰集羣。發佈問題時附上圖片，但沒有顯示。當我嘗試編輯時，有一個指向我的附件的鏈接。 –

Python：基於word2vec對類似單詞進行聚類

回答

相關問題