如图,比如我有如上数据,我想根据相同的ID1和ID2,保留时间最早的那一行。我的操作是这样的:
library(dplyr)
data<-arrange(data,data$ID1,data$ID2,data$time)
data<-data[!duplicated(data$ID1,data$ID2),]
首先根据ID1,ID2,time排序,然后用!duplicated()删去ID1和ID2重复的行,保留的即是时间最早的那一行。但是由于数据量庞大,每次运算都要花费好几个小时。所以在此请教各位老师,有没有更快的运算方法,占用内存或时间少一点的。(duplicated的缺点就是运算慢)