0
這可能是我即將問到的天真問題。我有一個標記化的語料庫,我已經訓練了Gensim的Word2vec模型。代碼如下Python:基於word2vec對類似單詞進行聚類
site = Article("http://www.datasciencecentral.com/profiles/blogs/blockchain-and-artificial-intelligence-1")
site.download()
site.parse()
def clean(doc):
stop_free = " ".join([i for i in word_tokenize(doc.lower()) if i not in stop])
punc_free = ''.join(ch for ch in stop_free if ch not in exclude)
normalized = " ".join(lemma.lemmatize(word) for word in punc_free.split())
snowed = " ".join(snowball.stem(word) for word in normalized.split())
return snowed
b = clean(site.text)
model = gensim.models.Word2Vec([b],min_count=1,size=32)
print(model) ### Prints: Word2Vec(vocab=643, size=32, alpha=0.025) ####
要聚類相似的單詞,我使用PCA來可視化類似單詞的聚類。但問題在於,它只能形成圖像中看到的大集羣。
PCA &散點圖代碼:
vocab = list(model.wv.vocab)
X = model[vocab]
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)
df = pd.concat([pd.DataFrame(X_pca),
pd.Series(vocab)],
axis=1)
df.columns = ['x','y','word']
fig = plt.figure()
ax = fig.add_subplot(1,1,1)
ax.scatter(df['x'],df['y'])
plt.show()
所以,我有三個問題在這裏:
1)只是一文足有集羣的明確分離? 2)如果我有一個訓練有龐大語料庫的模型,並且我想要預測新文章中的相似單詞,並以集羣的形式對它們進行可視化(即我預測的文章中的單詞),那麼有沒有如何做到這一點?
我非常感謝您的建議。謝謝。
謝謝@lazary。是的,我完全同意培訓數據大小的要求。我使用了k-means集羣,然後給了我很好的清晰集羣。發佈問題時附上圖片,但沒有顯示。當我嘗試編輯時,有一個指向我的附件的鏈接。 –