我有以下數據框:在數據幀創建百分比新列
dput(df1)
structure(list(month = c(1, 1, 2, 2, 3, 4), transaction_type = c("AAA",
"BBB", "BBB", "CCC",
"DDD", "AAA"), max_wt_per_month = c(54.9,
51.6833333333333, 52.3333333333333, 49.4666666666667, 49.85,
48.5833333333333), min_wt_per_month = c(0, 0, 0, 0, 0, 0), avg_wt_per_month = c(8.41701333107861,
7.65211141060198, 6.44184012508551, 7.74798927613941, 7.4360566888844,
7.50611319574734), prop = c(Inf, Inf, Inf, Inf, Inf, Inf)), .Names = c("month",
"transaction_type", "max_wt_per_month", "min_wt_per_month", "avg_wt_per_month",
"prop"), row.names = c(NA, -6L), class = c("grouped_df", "tbl_df",
"tbl", "data.frame"), vars = list(month), drop = TRUE, indices = list(
0:5), group_sizes = 6L, biggest_group_size = 6L, labels = structure(list(
month = 1), row.names = c(NA, -1L), class = "data.frame", vars = list(
month), drop = TRUE, .Names = "month"))
我想創建列prop
將包含的最長等待時間的百分比相對於每個月。如果我運行此代碼,然後我得到Inf
值在大多數的行...(尤其是它在真實數據集是顯而易見的):
my_fun=function(vec){
100*as.numeric(vec[3])/
sum(with(data_merged_transactions, ifelse(month == vec[1], max_wt_per_month, 0))) }
data_merged_transactions$prop=apply(data_merged_transactions , 1 , my_fun)
我後來終於需要創建填充區域圖,使每個區域將是一個百分比超出了100%:
ggplot(data_merged_transactions, aes(x=month, y=prop, fill=transaction_type)) +
geom_area(alpha=0.6 , size=1, colour="black")
爲什麼我得到Inf
如果總和不等於0? 此外,是否可以創建以月份爲因子(1月,2月等)的填充面積圖,而不是數字?我試圖用月份名稱替換月份ID,但是後來我得到了很細的條而不是填充的區域。
你能給我們提供原始數據幀的輸出嗎?我正在努力導入你發佈的那個?您還可以詳細說明「每月最大等待時間的百分比」與數據集中其他變量的關係? – biomiha
@biomiha:真實的數據集很大。我剛剛發佈了'dput(head(df))'。最大等待時間上的%意味着MAX_WT [AAA,1月]/SUM(MAX_WT [january])',其中max_wt是第3列,AAA是特定行的transaction_type。 – FiofanS