我最近問了一個關於統計一個元素自身重複次數的問題(http://stackoverflow.com/questions/7669553/how-to-assign-在大數據框中重複數據塊到基於數據幀的元素識別/ 7669607#7669607)。我收到了一些非常有用的建議,這些建議對少量行有效,但現在需要在更大的層面上執行操作(超過255k行,使用ddply形成大約100k個「組」):ddply用於拆分R中大量類別的問題
system.time(data <- ddply(data, "uid", function(x) {x$time <- 1:nrow(x); x})) #uid is the grouping variable, for which I need to count the number of repeats for output like
uid time
ny1 1
ny1 2
ny2 1
ny2 2
ny2 3
嘗試在較大的數據集上執行此操作會由於內存問題導致R窒息。有沒有明顯的解決辦法?預先感謝(特別是耐心,因爲我是一個新的「程序員」)。
第二種解決方案適用於我所面臨的特定問題;我會玩弄data.table並回復你,因爲我懷疑這種類型的事情會在另一個應用程序中再次出現。謝謝! – SMM