R：使用NA替換多個數據幀中的多個值

我試圖實現類似於this question但具有必須由NA替換的多個值以及大數據集中的值。R：使用NA替換多個數據幀中的多個值

df <- data.frame(name = rep(letters[1:3], each = 3), foo=rep(1:9),var1 = rep(1:9), var2 = rep(3:5, each = 3))

產生這個數據幀：

df 
    name foo var1 var2 
1 a 1 1 3 
2 a 2 2 3 
3 a 3 3 3 
4 b 4 4 4 
5 b 5 5 4 
6 b 6 6 4 
7 c 7 7 5 
8 c 8 8 5 
9 c 9 9 5

我想用NA來替代，比如說，3和4的所有事件，但只有在與「VAR」開始列。

我知道，我可以使用[]運算符的組合來實現我想要的結果：

df[,grep("^var[:alnum:]?",colnames(df))][ 
     df[,grep("^var[:alnum:]?",colnames(df))] == 3 | 
     df[,grep("^var[:alnum:]?",colnames(df))] == 4 
    ] <- NA 

df 
    name foo var1 var2 
1 a 1 1 NA 
2 a 2 2 NA 
3 a 3 NA NA 
4 b 4 NA NA 
5 b 5 5 NA 
6 b 6 6 NA 
7 c 7 7 5 
8 c 8 8 5 
9 c 9 9 5

現在我的問題有以下幾點：

有沒有辦法在這樣做一種有效的方法，假設我的實際數據集有大約100.000行，並且500個變量中的400個以「var」開始。當我使用雙括號技術時，我的電腦似乎（主觀上）很慢。
如果而不是2個值（3和4）被替換爲NA，我有很長的列表，比如100個不同的值，我將如何處理這個問題？有沒有辦法指定多個值，而必須執行由|運算符分隔的一系列笨拙條件？

來源

2014-09-10 Peutch

你可以使用'％'％。 – Roland 2014-09-10 14:49:15

你也可以做到這一點使用replace：

sel <- grepl("var",names(df)) 
df[sel] <- lapply(df[sel], function(x) replace(x,x %in% 3:4, NA)) 
df 

# name foo var1 var2 
#1 a 1 1 NA 
#2 a 2 2 NA 
#3 a 3 NA NA 
#4 b 4 NA NA 
#5 b 5 5 NA 
#6 b 6 6 NA 
#7 c 7 7 5 
#8 c 8 8 5 
#9 c 9 9 5

使用數據的百萬行的樣品一些快速基準測試表明，這是比其他答案更快。

來源

2014-09-11 04:47:23 thelatemail

+1您可以發佈基準嗎？謝謝。 – akrun 2014-09-11 07:57:32

根據我的數據，我從17秒變爲1.8秒，與@akrun方法相比降低了10倍！謝謝！ – Peutch 2014-09-11 09:26:05

@akrun，我在我的答案中添加了基準。 – A5C1D2H2I1M1N2O1R2T1 2014-09-11 12:22:24

這裏有一個辦法：

# the values that should be replaced by NA 
values <- c(3, 4) 

# index of columns 
col_idx <- grep("^var", names(df)) 
# [1] 3 4 

# index of values (within these columns) 
val_idx <- sapply(df[col_idx], "%in%", table = values) 
#  var1 var2 
# [1,] FALSE TRUE 
# [2,] FALSE TRUE 
# [3,] TRUE TRUE 
# [4,] TRUE TRUE 
# [5,] FALSE TRUE 
# [6,] FALSE TRUE 
# [7,] FALSE FALSE 
# [8,] FALSE FALSE 
# [9,] FALSE FALSE 

# replace with NA 
is.na(df[col_idx]) <- val_idx 

df 
# name foo var1 var2 
# 1 a 1 1 NA 
# 2 a 2 2 NA 
# 3 a 3 NA NA 
# 4 b 4 NA NA 
# 5 b 5 5 NA 
# 6 b 6 6 NA 
# 7 c 7 7 5 
# 8 c 8 8 5 
# 9 c 9 9 5

來源

2014-09-10 14:48:35

你也可以這樣做：

col_idx <- grep("^var", names(df)) 
values <- c(3, 4) 
m1 <- as.matrix(df[,col_idx]) 
m1[m1 %in% values] <- NA 
df[col_idx] <- m1 
df 
# name foo var1 var2 
#1 a 1 1 NA 
#2 a 2 2 NA 
#3 a 3 NA NA 
#4 b 4 NA NA 
#5 b 5 5 NA 
#6 b 6 6 NA 
#7 c 7 7 5 
#8 c 8 8 5 
#9 c 9 9 5

來源

2014-09-10 15:01:57 akrun

謝謝。根據我的數據，這個解決方案比'sapply'方法快6到7倍。 – Peutch 2014-09-10 15:33:54

@荷蘭盾 - 我想我已經用'replace'把這個速度提高了一小部分 - 你能測試一下你的實際數據嗎？ – thelatemail 2014-09-11 05:01:57

~~我沒有超時此選項，但~~我已經寫了一個名爲makemeNA功能是一部分my GitHub-only "SOfun" package。

與該功能的方法是這樣的：

library(SOfun) 

Cols <- grep("^var", names(df)) 
df[Cols] <- makemeNA(df[Cols], NAStrings = as.character(c(3, 4))) 
df 
# name foo var1 var2 
# 1 a 1 1 NA 
# 2 a 2 2 NA 
# 3 a 3 NA NA 
# 4 b 4 NA NA 
# 5 b 5 5 NA 
# 6 b 6 6 NA 
# 7 c 7 7 5 
# 8 c 8 8 5 
# 9 c 9 9 5

函數使用na.strings論點type.convert做轉換到NA。

library(devtools) 
install_github("SOfun", "mrdwab")

（或您最喜歡的從GitHub安裝包的方法）：

與安裝軟件包。

這是一些基準測試。我已決定讓事情變得有趣，並用NA替換數字和非數字值，以瞭解事情的對比。

這裏的樣本數據：

n <- 1000000 
set.seed(1) 
df <- data.frame(
    name1 = sample(letters[1:3], n, TRUE), 
    name2 = sample(letters[1:3], n, TRUE), 
    name3 = sample(letters[1:3], n, TRUE), 
    var1 = sample(9, n, TRUE), 
    var2 = sample(5, n, TRUE), 
    var3 = sample(9, n, TRUE))

下面是功能測試：

fun1 <- function() { 
    Cols <- names(df) 
    df[Cols] <- makemeNA(df[Cols], NAStrings = as.character(c(3, 4, "a"))) 
    df 
} 

fun2 <- function() { 
    values <- c(3, 4, "a") 
    col_idx <- names(df) 
    m1 <- as.matrix(df) 
    m1[m1 %in% values] <- NA 
    df[col_idx] <- m1 
    df 
} 

fun3 <- function() { 
    values <- c(3, 4, "a") 
    col_idx <- names(df) 
    val_idx <- sapply(df[col_idx], "%in%", table = values) 
    is.na(df[col_idx]) <- val_idx 
    df 
} 

fun4 <- function() { 
    sel <- names(df) 
    df[sel] <- lapply(df[sel], function(x) 
    replace(x, x %in% c(3, 4, "a"), NA)) 
    df 
}

我打破了fun2和fun3。我對fun2並不滿意，因爲它將所有內容都轉換爲相同類型。我也預計fun3會變慢。

system.time(fun2()) 
# user system elapsed 
# 4.45 0.33 4.81 

system.time(fun3()) 
# user system elapsed 
# 34.31 0.38 34.74

所以現在它歸結爲我和Thela ...

library(microbenchmark) 
microbenchmark(fun1(), fun4(), times = 50) 
# Unit: seconds 
# expr  min  lq median  uq  max neval 
# fun1() 2.934278 2.982292 3.070784 3.091579 3.617902 50 
# fun4() 2.839901 2.964274 2.981248 3.128327 3.930542 50

蕩你Thela！

來源

2014-09-11 04:19:09 A5C1D2H2I1M1N2O1R2T1

+1我將它轉換爲矩陣，例如顯示「數字」列進行比較 – akrun 2014-09-11 12:29:13

這裏是一個dplyr解決方案：

# Define replace function 
repl.f <- function(x) ifelse(x%in%c(3,4), NA,x) 

library(dplyr) 
cbind(select(df, -starts_with("var")), 
    mutate_each(select(df, starts_with("var")), funs(repl.f))) 

    name foo var1 var2 
1 a 1 1 NA 
2 a 2 2 NA 
3 a 3 NA NA 
4 b 4 NA NA 
5 b 5 5 NA 
6 b 6 6 NA 
7 c 7 7 5 
8 c 8 8 5 
9 c 9 9 5

來源

2015-05-07 21:48:06 Tomiris

R：使用NA替換多個數據幀中的多個值

回答

相關問題