2011-09-18 76 views
3

我有一個約8萬觀察值和5個字符變量的數據集「X」 - 稱它們爲A,B,C,D和E.我試圖計算D和E之間的jaro-winkler統計量與RecordLinkage包:處理數據塊

library(RecordLinkage) 
X$jw = jarowinkler(X$D, X$E) 

的問題是,更多的記憶保持習慣了,直到計算機只是凍結。是否有任何方法可以自動在「塊」中進行處理,而事先不必事先手動將X分割成合理的小尺寸並使用各個子集?

換句話說,是否有任何內置函數可以在不需要事先做好分割和處理的情況下進行分割和處理?

回答

0

那麼,最簡​​單的解決方案可能是使用nrows參數read.table(或CSV或其他)。將nrow設置爲較小的值,然後遍歷這些段,刪除不需要的對象,並隨時調用gc()

+0

目前,這似乎確實是最不痛苦的選擇。 – user702432