加權表格數據框與plyr

我正在處理由多個問題（y1，y2，y3，...）的整數值響應和分配給每個應答者的加權計數組成的調查數據，如下所示：加權表格數據框與plyr

foo <- data.frame(wcount = c(10, 1, 2, 3),  # weighted counts 
        y1 = sample(1:5, 4, replace=T), # numeric responses 
        y2 = sample(1:5, 4, replace=T), # 
        y3 = sample(1:5, 4, replace=T)) # 
>foo 
    wcount y1 y2 y3 
1  10 5 5 5 
2  1 1 4 4 
3  2 1 2 5 
4  3 2 5 3

我想將其轉換爲加權表的統一數據框版本，第一列代表響應值，接下來的3列代表加權計數。

library(Hmisc) 
ty1 <- wtd.table(foo$y1, foo$wcount) 
ty2 <- wtd.table(foo$y2, foo$wcount) 
ty3 <- wtd.table(foo$y3, foo$wcount) 

bar <- merge(ty1, ty2, all=T, by="x") 
bar <- merge(bar, ty3, all=T, by="x") 

names(bar) <- c("x", "ty1", "ty2", "ty3") 
bar[is.na(bar)]<-0 
>bar 
    x ty1 ty2 ty3 
1 1 3 0 0 
2 2 3 2 0 
3 3 0 0 3 
4 4 0 1 1 
5 5 10 13 12

我懷疑有與plyr和numcolwise或ddply這種自動化的方法：可以明確地列使用來完成。例如，以下內容即將結束，但我不確定還需要完成該任務：

library(plyr) 
bar2 <- numcolwise(wtd.table)(foo[c("y1","y2","y3")], foo$wcount) 
>bar2 
     y1  y2  y3 
1 1, 2, 5 2, 4, 5 3, 4, 5 
2 3, 3, 10 2, 1, 13 3, 1, 12

有什麼想法？

來源

2014-10-03 Bryan

嗨，你正在使用什麼調查？這看起來像多重填補，需要'mitools' +'survey'包來獲得正確的置信區間。 – 2014-10-03 21:12:23

我正在與環境影響評估等美國住宅能源消費調查（RECS）合作。很高興看到有一個關於一切的包，謝謝參考！ – Bryan 2014-10-04 00:38:42

這只是一個基於複製的調查。你試圖重新發明輪子......你將有一個更容易的時間[複製他們的官方方法]（http://www.eia.gov/consumption/residential/methodology/2009/pdf/using-microdata- 022613.pdf）如果您使用調查軟件包。 :) – 2014-10-04 04:17:41

不是plyr的答案，但是這給我的印象重塑/聚合，可以直截了當地用從包reshape2功能來解決問題。

首先，melt數據集，使響應值的一列可以命名爲x（y1 - y3中的唯一值）。

library(reshape2) 
dat2 = melt(foo, id.var = "wcount", value.name = "x")

現在，這可以與廣投dcast回，使用sum作爲聚合功能。這將y1 - y3作爲列，總計爲wcount，每個值爲x。

# Cast back wide using the values within y1-y3 as response values 
    # and filling with the sum of "wcount" 
dcast(dat2, x ~ variable, value.var = "wcount", fun = sum)

給予

x y1 y2 y3 
1 1 3 0 0 
2 2 3 2 0 
3 3 0 0 3 
4 4 0 1 1 
5 5 10 13 12

來源

2014-10-03 19:24:40 aosmith

這很好，謝謝！我一直在使用融化，但我是一個演員新手，所以這是非常有幫助的。出於學習目的，我仍然有興趣瞭解是否/如何使用ddply完成這項工作，如果沒有，爲什麼不呢。 – Bryan 2014-10-03 20:21:55

你所描述的是使用重複權的一項調查數據集。看到http://asdfree.com/許多很多的例子，但對於recs，做這樣的事情：

library(survey) 

x <- read.csv("http://www.eia.gov/consumption/residential/data/2009/csv/recs2009_public.csv") 
rw <- read.csv("http://www.eia.gov/consumption/residential/data/2009/csv/recs2009_public_repweights.csv") 
y <- merge(x , rw) 

# create a replicate-weighted survey design object 
z <- svrepdesign(data = y , weights = ~NWEIGHT , repweights = "brr_weight_[0-9]") 

# now run all of your analyses on the object `z` .. 
# see the `survey` package homepage for details 

# distribution 
svymean(~ factor(BASEHEAT) , z) 

# mean 
svymean(~ TOTHSQFT , z)

來源

2014-10-04 04:16:28

謝謝你的例子！ FWIW，我的最終目標不是找到具有CI的彙總統計數據，而是使用加權直方圖和加權經驗cdf圖格式來探索幾個連續響應（例如溫度設置）的分佈，該圖不支持權重（除了密度圖），所以我不得不重新格式化數據以顯示我想要的內容。調查提供了這些功能中的一部分，但我更喜歡多格調節功能來繪製格子。將需要花一些時間玩調查，看看他們是否可以一起工作。 – Bryan 2014-10-04 13:59:03

加權表格數據框與plyr

回答

相關問題