dplyr

4熱度

2回答

我已經玩了dplyr一點，真的很喜歡它。我雖然失去了一些東西。在plyr中，我能夠將一個函數傳遞給ddply並重用它。 library('dplyr') library('plyr') fn = function(df) { summarise(df, count = length(id)) } ddply(DF1,'group', fn) ddply(DF2,

3熱度

1回答

彙總dplyr中的值 - 崩潰RStudio

可以執行鏈接summarise操作data.frame？我data.frame具有結構： data_df = tbl_df(data) data_df %.% group_by(col_1) %.% summarise(number_of= length(col_2)) %.% summarise(sum_of = sum(col_3)) 這將導致RS

18熱度

5回答

指定dplyr列名

如果我不知道列名，但是想通過變量指定它，如何將列名傳遞給dplyr？例如這個工程： require(dplyr) df <- as.data.frame(matrix(seq(1:9),ncol=3,nrow=3)) df$group <- c("A","B","A") gdf <- df %.% group_by(group) %.% summarise(m1 =mean(V1),m2

13熱度

1回答

具有NULL名稱的對象上的all.equal會導致'錯誤：與STRSXP不兼容' - 錯誤還是預期？

在下面的例子中，當名稱被設置爲NULL，all.equal拋出'Error: not compatible with STRSXP' 然而，如果名稱被設置爲NA（或一些其它值），all.equal作品爲正常。這是預期的行爲還是錯誤？ ## SAMPLE DATA set.seed(1) x <- data.frame(LETTERS[1:3], rnorm(3)) names(x) <-

8熱度

2回答

如何使用dplyr進行編程

我喜歡dplyr進行數據操作，但我不明白如何使用它進行編程。例如，要重新縮放一些變量，我們可以這樣做： mutate(cars, speed.scaled = scale(speed), dist.scaled = scale(dist)) 非常酷。但是現在假設我想寫一個函數，它使用mutate來縮放數據框中的所有變量。我如何創建...參數？我能想出的最好的東西是這樣的： fnargs <-

5熱度

1回答

我可以使這個dplyr + data.table任務更快嗎？

我想這是一個dplyr比plyr更多的問題。爲了提高速度，我在我寫的一些代碼中使用了data.table。期間的中間步驟我有一些基因組學與數據的表〜32,000行： > bedbin.dt Source: local data table [32,138 x 4] Groups: chr bin start site chr 1 2 3500000 ssCTCF 1 2

89熱度

6回答

提取一個dplyr tbl列作爲一個向量

有沒有一種更簡潔的方式來從一個數據庫後端的tbl中獲得一列dplyr tbl作爲一個向量（即數據框/表不能直接被子集）？ require(dplyr) db <- src_sqlite(tempfile(), create = TRUE) iris2 <- copy_to(db, iris) iris2$Species # NULL 那將是太容易了，所以 collect(select(

102熱度

5回答

用dplyr總結多列？

我用dplyr語法掙扎了一下。我有一個數據框與不同的變量和一個分組變量。現在我想計算平均每個組內的每個列，在R. df <- data.frame( a = sample(1:5, n, replace = TRUE), b = sample(1:5, n, replace = TRUE), c = sample(1:5, n, replace = TRUE),

15熱度

6回答

在R中是否有一個用於對象關係映射的包？

（通過對象關係映射，我的意思是這裏描述：Wikipedia: Object-relational mapping）這裏是我能想象在讀該工作：一種「虛擬數據幀」是鏈接到數據庫，並返回訪問時SQL查詢的結果。例如，head(virtual_list)實際上會在映射的數據庫上返回(select * from mapped_table limit 5)的結果。我發現這post by John Myle