具有缺失值的分類數據中的維度減少

我有一個迴歸模型，其中因變量是連續的，但90％的自變量是分類（有序和無序），大約百分之三十的記錄有缺失值更糟糕的是，它們隨機丟失，沒有任何模式，也就是說，超過百分之四十五的數據至少有一個缺失值。沒有先驗理論來選擇模型的規格，因此在運行迴歸之前，關鍵任務之一是降維。雖然我意識到連續變量降維的幾種方法，但我並不知道類別數據的類似靜態文獻（除了可能作爲對應分析的一部分，其基本上是頻率表上主分量分析的一部分）。我還要補充說，該數據集具有200個變量的中等規模500000個觀測值。我有兩個問題。具有缺失值的分類數據中的維度減少

是否有一個很好的統計參考用於分類數據的降維以及強健的插補（我認爲第一個問題是插補和降維）？
這與實現上述問題有關。我早先廣泛地使用了R，傾向於對連續變量大量使用transcan和impute函數，並使用樹方法的變體來計算分類值。我有一個Python的工作知識，所以如果出於這個目的，那麼我會使用它。 python或R中的任何實現指針都會很有幫助。謝謝。

來源

2010-05-14 user227290

關於分類數據的插補，我建議檢查mice軟件包。也請看看這個presentation，它解釋了它如何計算多元分類數據。不完整多元數據的多重歸因的另一個包是Amelia。阿米莉亞包括一些有限的能力來處理序數和名義變量。

對於分類數據的降維（即將變量排列到同質羣集中的方法），我會建議Multiple Correspondence Analysis的方法，它將爲您提供最大化羣集同質性的潛在變量。與主成分分析（PCA）和因子分析中所做的類似，也可以旋轉MCA解決方案以增加組件的簡單性。旋轉背後的想法是找到與旋轉組件更加清晰重合的變量子集。這意味着最大限度地簡化組件可以幫助因子解釋和變量聚類。在R MCA方法中包括在包ade4,MASS,FactoMineR和ca（至少）中。至於FactoMineR，您可以通過圖形界面使用它，如果您將它作爲額外菜單添加到已由Rcmdr軟件包建議的菜單中，請安裝RcmdrPlugin.FactoMineR

來源

2010-05-15 13:06:45

謝謝。這真的很有幫助。 – user227290 2010-05-15 23:41:04

嗨，現在找不到演示文稿的鏈接。 – 2017-12-07 13:39:24

具有缺失值的分類數據中的維度減少

回答

相關問題