我正在做一些機器學習,並嘗試使用PCA查找重要維度。這是我到目前爲止已經完成:PCA:獲得前20名最重要的尺寸
from sklearn.decomposition import PCA
pca = PCA(n_components=0.98)
X_reduced = pca.fit_transform(df_normalized)
X_reduced.shape
(2208, 1961)
所以我有2208行由1961列運行PCA,說明在我的數據集的方差的98%。然而,我擔心具有最小解釋力的維度實際上可能會損害我對預測的嘗試(我的模型可能只是在數據中發現虛假的相關性)。
SciKit-Learn按重要性排序列嗎?如果是這樣,我可以這樣做:
X_final = X_reduced[:, :20]
,對嗎?
感謝您的幫助!