dplyr

    4熱度

    2回答

    我已經玩了dplyr一點,真的很喜歡它。我雖然失去了一些東西。在plyr中,我能夠將一個函數傳遞給ddply並重用它。 library('dplyr') library('plyr') fn = function(df) { summarise(df, count = length(id)) } ddply(DF1,'group', fn) ddply(DF2,

    3熱度

    1回答

    可以執行鏈接summarise操作data.frame? 我data.frame具有結構: data_df = tbl_df(data) data_df %.% group_by(col_1) %.% summarise(number_of= length(col_2)) %.% summarise(sum_of = sum(col_3)) 這將導致RS

    18熱度

    5回答

    如果我不知道列名,但是想通過變量指定它,如何將列名傳遞給dplyr? 例如這個工程: require(dplyr) df <- as.data.frame(matrix(seq(1:9),ncol=3,nrow=3)) df$group <- c("A","B","A") gdf <- df %.% group_by(group) %.% summarise(m1 =mean(V1),m2

    13熱度

    1回答

    在下面的例子中,當名稱被設置爲NULL,all.equal拋出'Error: not compatible with STRSXP' 然而,如果名稱被設置爲NA(或一些其它值),all.equal作品爲正常。 這是預期的行爲還是錯誤? ## SAMPLE DATA set.seed(1) x <- data.frame(LETTERS[1:3], rnorm(3)) names(x) <-

    8熱度

    2回答

    我喜歡dplyr進行數據操作,但我不明白如何使用它進行編程。例如,要重新縮放一些變量,我們可以這樣做: mutate(cars, speed.scaled = scale(speed), dist.scaled = scale(dist)) 非常酷。但是現在假設我想寫一個函數,它使用mutate來縮放數據框中的所有變量。我如何創建...參數?我能想出的最好的東西是這樣的: fnargs <-

    5熱度

    1回答

    我想這是一個dplyr比plyr更多的問題。爲了提高速度,我在我寫的一些代碼中使用了data.table。期間的中間步驟我有一些基因組學與數據的表〜32,000行: > bedbin.dt Source: local data table [32,138 x 4] Groups: chr bin start site chr 1 2 3500000 ssCTCF 1 2

    89熱度

    6回答

    有沒有一種更簡潔的方式來從一個數據庫後端的tbl中獲得一列dplyr tbl作爲一個向量(即數據框/表不能直接被子集)? require(dplyr) db <- src_sqlite(tempfile(), create = TRUE) iris2 <- copy_to(db, iris) iris2$Species # NULL 那將是太容易了,所以 collect(select(

    102熱度

    5回答

    我用dplyr語法掙扎了一下。我有一個數據框與不同的變量和一個分組變量。現在我想計算平均每個組內的每個列,在R. df <- data.frame( a = sample(1:5, n, replace = TRUE), b = sample(1:5, n, replace = TRUE), c = sample(1:5, n, replace = TRUE),

    15熱度

    6回答

    (通過對象關係映射,我的意思是這裏描述:Wikipedia: Object-relational mapping) 這裏是我能想象在讀該工作:一種「虛擬數據幀」是鏈接到數據庫,並返回訪問時SQL查詢的結果。例如,head(virtual_list)實際上會在映射的數據庫上返回(select * from mapped_table limit 5)的結果。 我發現這post by John Myle