R撤銷虛擬變量

我有一個數據集，其中一些分類變量被轉換爲虛擬變量（所有類使用，不是n-1），有些不是。我試圖在一列中重新編碼它們。R撤銷虛擬變量

例如

Q1.1 Q1.2 Q1.3 Q1.NA Q2 Q3.1 Q3.2 
1  0  0  0  3  0  1 
0  1  0  0  4  1  0 
0  0  1  0  2  0  1

有沒有一種簡單的方法將其轉換爲：

現在我只是用strsplit()（所有空置的變量名包含'.'）與情侶循環，但覺得應該有更好的方法。有什麼建議麼？

來源

2015-03-02 screechOwl

應該'Q3'是'2，1，3' – akrun 2015-03-02 16:34:08

@akrun：不要這麼認爲 - 有3個問題，Q1和Q3是空置的。 Q1有1,2,3級; Q3有1,2級。 – screechOwl 2015-03-02 16:36:24

好的，我在考慮'1'的位置 – akrun 2015-03-02 16:37:51

我寫了一個函數，然後做了這樣的事情。

MultChoiceCondense<-function(vars,indata){ 
    tempvar<-matrix(NaN,ncol=1,nrow=length(indata[,1])) 
    dat<-indata[,vars] 
    for (i in 1:length(vars)){ 
    for (j in 1:length(indata[,1])){ 
     if (dat[j,i]==1) tempvar[j]=i 
    } 
    } 
    return(tempvar) 
}

如果你的數據被稱爲Dat，則：

Dat$Q1<-MultChoiceCondense(c("Q1.1","Q1.2","Q1.3"),Dat)

來源

2015-03-02 16:40:05

下面是一個使用從「reshape2」 melt和cSplit從我的「splitstackshape」包一些「data.table」好玩一起的方法。我已經加載了dplyr，這樣我們就可以管好所有的東西。

library(splitstackshape) 
library(reshape2) 
library(dplyr) 

mydf %>% 
    as.data.table(keep.rownames = TRUE) %>%  # Convert to data.table. Keep rownames 
    melt(id.vars = "rn", variable.name = "V") %>% # Melt the dataset by rownames 
    .[value > 0] %>%        # Subset for all non-zero values 
    cSplit("V", ".") %>%       # Split the "V" column (names) by "." 
    .[is.na(V_2), V_2 := value] %>%    # Replace NA values with actual values 
    dcast.data.table(rn ~ V_1, value.var = "V_2") # Go wide. 
# rn Q1 Q2 Q3 
# 1: 1 1 3 2 
# 2: 2 2 4 1 
# 3: 3 3 2 2

這裏是一個可能的基礎R方法：

## Which columns are binary? 
Bins <- sapply(mydf, function(x) { 
    all(x %in% c(0, 1)) 
}) 

## Two vectors -- part after the dot and before 
X <- gsub(".*\\.(.*)$", "\\1", names(mydf)[Bins]) 
Y <- unique(gsub("(.*)\\..*$", "\\1", names(mydf)[Bins])) 

## Use `apply` to subset the X value based on the 
## logical version of the binary variable 
cbind(mydf[!Bins], 
     `colnames<-`(t(apply(mydf[Bins], 1, function(z) { 
     X[as.logical(z)] 
     })), Y)) 
# Q2 Q1 Q3 
# 1 3 1 2 
# 2 4 2 1 
# 3 2 3 2

最後，你可以重新排序的列必需的。您可能還需要將它們轉換爲數字，因爲在這種情況下，Q1和Q3將是因素。

來源

2015-03-02 16:57:34 A5C1D2H2I1M1N2O1R2T1

另一個基礎R方法

dat <- read.table(header = TRUE, text = "Q1.1 Q1.2 Q1.3 Q1.NA Q2 Q3.1 Q3.2 
1  0  0  0  3  0  1 
0  1  0  0  4  1  0 
0  0  1  0  2  0  1") 

## this will take all the unique questions; Q1, Q2, Q3; test if 
## they are dummies; and return the column if so or find which 
## dummy column is a 1 otherwise 
res <- lapply(unique(gsub('\\..*', '', names(dat))), function(x) { 
    tmp <- dat[, grep(x, names(dat)), drop = FALSE] 
    if (ncol(tmp) == 1) unlist(tmp, use.names = FALSE) else max.col(tmp) 
    }) 

# [[1]] 
# [1] 1 2 3 
# 
# [[2]] 
# [1] 3 4 2 
# 
# [[3]] 
# [1] 2 1 2 

do.call('cbind', res) 
#  [,1] [,2] [,3] 
# [1,] 1 3 2 
# [2,] 2 4 1 
# [3,] 3 2 2

來源

2015-03-02 17:36:58 rawr

R撤銷虛擬變量

回答

相關問題