繪製散點圖中的PCA輸出，同時根據標籤着色python matplotlib

我剛剛完成了14個變量的PCA分析，我已經選擇將其分解爲2個分量。繪製散點圖中的PCA輸出，同時根據標籤着色python matplotlib

pca = PCA(n_components=2) 
pca.fit(z) 
a = pca.fit_transform(z)

輸出這給出了在形式：

[[ -3.84514275e+00 -1.19829226e-01] 
[ -4.78476227e+00 -1.35986090e-01] 
[ -2.26702900e+00 -1.19665853e+00] 
[ -5.01021616e+00 2.76005130e+00] 
[ -5.57580326e+00 -2.00656680e+00] 
[ -5.08184415e+00 -3.68721491e+00] 
[ -3.41505366e+00 -7.61184868e-01] 
[ -4.92439159e+00 -1.82147509e+00] 
... 
[ -3.34931300e+00 7.57884906e-01]]

欲執行以下操作：

情節上與PC1（X）爲所述第一一散點圖每個觀測每個數組中的值和PC2（y）是第二個值。
根據來自初始PCA前數據的相應標籤類型（即A =紅色，B =藍色，C =綠色等）爲每個觀察着色。
標籤SELECTED（不是全部）與從最初的預PCA數據觀察的名稱（例如約翰，彼得，薩利等）

觀察任何幫助是極大的讚賞任何/所有這些問題。

值得注意我試圖通過做散點圖：

plt.scatter(a[1], a[2]) 
plt.show()

但顯然這並不能作爲我的輸出沒有用逗號分隔的工作，而且只積2分。無法幫助我的頭，因此會讚賞SO的投入。

編輯：

John, A, var1, var2, var3, ..., var14 
Peter, A, var1, var2, var3, ..., var14 
Sally, B, var1, var2, var3, ..., var14 
Cath, C, var1, var2, var3, ..., var14 
Jim, A, var1, var2, var3, ..., var14

類似這樣的東西之後我：在形式上

數據集

來源

2017-07-26 mystifier

我們展示具有代表性的數據集，用標籤 –

你的陣列是二維的，所以你需要用兩個指數指數吧。第一列爲'a [：，0]'，第二列爲'a [：，1]'。除此之外，真正的問題還不清楚。 – ImportanceOfBeingErnest

謝謝歐內斯特，那解決了問題1.關於2和3的任何想法？ – mystifier

我認爲你的問題現在很明確的 - 感謝編輯！

下面介紹如何創建您所描述的情節。

首先，讓我們產生了一些示例數據：

# Params 
n_samples = 100 
m_features = 14 
selected_names = ['name_13', 'name_23', 'name_42', 'name_66'] 

# Generate 
np.random.seed(42) 
names = ['name_%i' % i for i in range(n_samples)] 
labels = [np.random.choice(['A','B','C','D']) for i in range(n_samples)] 
features = np.random.random((n_samples,m_features))

接下來我們要做的PCA：

pca = PCA(n_components=2) 
features_pca = pca.fit_transform(features)

然後，我們準備長度n列表/數組轉換標籤A,B,C,...變成顏色。這些可以是手動選擇的顏色...

...或者只是一個整數範圍。

# Label to color dict (automatic) 
label_color_dict = {label:idx for idx,label in enumerate(np.unique(labels))} 

# Color vector creation 
cvec = [label_color_dict[label] for label in labels]

最後，是時候繪製。

# Create the scatter plot 
plt.figure(figsize=(8,8)) 
plt.scatter(features_pca[:,0], features_pca[:,1], 
      c=cvec, edgecolor='', alpha=0.5) 

# Add the labels 
for name in selected_names: 

    # Get the index of the name 
    i = names.index(name) 

    # Add the text label 
    labelpad = 0.01 # Adjust this based on your dataset 
    plt.text(features_pca[i,0]+labelpad, features_pca[i,1]+labelpad, name, fontsize=9) 

    # Mark the labeled observations with a star marker 
    plt.scatter(features_pca[i,0], features_pca[i,1], 
       c=cvec[i], vmin=min(cvec), vmax=max(cvec), 
       edgecolor='', marker='*', s=100) 

# Add the axis labels 
plt.xlabel('PC 1 (%.2f%%)' % (pca.explained_variance_ratio_[0]*100)) 
plt.ylabel('PC 2 (%.2f%%)' % (pca.explained_variance_ratio_[1]*100)) 

# Done 
plt.show()

正如你可以看到，不同的顏色可以通過c kwarg送入plt.scatter。此外，我建議edgecolor=''，因爲這通常看起來更清楚。您可以使用alpha來增加/減少透明度，這會使標記的點更多/更少。

使用plt.text和適當的x和y位置將標籤簡單地放在圖上，我在這裏稍微調整一下（使用labelpad），以便標籤可以很好地放置在標記旁邊。

對於星號標記，請注意，如果您使用的是數字顏色矢量，則vmin和vmax非常重要，否則恆星會以錯誤的顏色結束。

這裏的結果（使用手動定義顏色）：

來源

2017-08-02 19:01:35 WhoIsJack

繪製散點圖中的PCA輸出，同時根據標籤着色python matplotlib

回答

相關問題