全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
454 3
2022-01-24
大家好,有个数据处理的问题请问大家,具体如下:
前提:我已经按照user_id和request_time进行排序,为某一个user的数据
目前需求:想要把request_time挨在一起的重复出现的sku_id删除只保留一个(比如sku:a864c609d0,在倒数第五行和倒数第四行挨着出现,我只想留下一个,但同时,他也在最后一行和第五航出现,这两个数据是我想保留的)
我已经尝试过duplicates drop user_id sku_id,但是该命令下没有考虑时间时间顺序,比如sku_id为864c609d0的数据,一共出现了3次,用duplicates drop就会只留下一个,因此想请教大家有没有其他方法可以解决?

复制代码




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-1-25 09:27:48
是这样吗?
复制代码
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-1-25 13:26:33
尝试以下代码:
复制代码

代码将  同一user_id 下 同一sku_id 同一天出现多次request_time的数据视为连续重复,保留下最后一次的数据。
关键需要界定时间间隔,多长时间间隔的视为连续重复需要删除,同一天,同一个小时,还是同一分钟。间隔确定后然后按需要修改。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-1-25 18:58:59
DΘstinyじò 发表于 2022-1-25 13:26
尝试以下代码:

代码将  同一user_id 下 同一sku_id 同一天出现多次request_time的数据视为连续重复,保 ...
谢谢您!这个方法可行,非常感谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群