全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
4019 4
2018-04-13
想用R来识别数据集中某个变量重复的所有重复记录,
如数据库中有如下5条记录
姓名  学科   城市   分数
a     数学   北京   90
a     语文    北京   89
b     地理   天津   90
e    语文    南京  90
c   地理   南京  86
c   语文   合肥  85
查重条件是姓名+城市相同,想给姓名和城市名相同的所有记录赋值为1,不满足重复条件的记录赋值为0,即结果是:
姓名  学科   城市  分数  dup
a     数学    北京    90      1   
a     语文    北京    89      1
b    地理    天津    90       0
e    语文     南京   90       0
c    地理    南京    86       0
c    语文   合肥     85       0

用duplicated()好像只能识别重复记录的第2条,如何能将重复记录的对子识别出来?求高人指点

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-4-14 14:47:52
复制代码


试试这个
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-4-14 21:48:52
菊花冰糖水 发表于 2018-4-14 14:47
试试这个
好用,解决了我的问题,非常感谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-7-23 16:18:32
请问,我按您的方法做的,为什么view这个数据框,没有生成dup这个变量?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-2-20 11:00:27
阿璇tian 发表于 2018-7-23 16:18
请问,我按您的方法做的,为什么view这个数据框,没有生成dup这个变量?
复制代码
管道符并没有改变df本身的结构,要自己写进去
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群