全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
17362 6
2011-01-11
我要处理个大约2万条信息的数据框,但是突然发现里面有些重复的数据,必须把重复的数据抛出,教授催得紧,我实在想不出办法。请高手们指导一下,不胜感激。
大概如下面表格的结构,要分别去掉每个公司中重复的数据。

公司名 利率
2000 1 A a
2000 1 A a
2001 2 A b
2001 3 A c
2000 1 B d
2000 2 B e
2000 2 B e

R中有函数可以做到吗,还是必须写程序控制,
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2011-1-11 17:30:09
用unique函数即可
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-1-12 09:15:12
谢谢,我去试试。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-1-12 09:18:29
unique( )               
不过之后要重新整理数据格式
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-1-12 21:47:55
> rt
    年 月 公司名 利率
1 2000  1      A    a
2 2000  1      A    a
3 2001  2      A    b
4 2001  3      A    c
5 2000  1      B    d
6 2000  2      B    e
7 2000  2      B    e
> unique(rt)
    年 月 公司名 利率
1 2000  1      A    a
3 2001  2      A    b
4 2001  3      A    c
5 2000  1      B    d
6 2000  2      B    e
> unique(rt,fromLast=TRUE)
    年 月 公司名 利率
2 2000  1      A    a
3 2001  2      A    b
4 2001  3      A    c
5 2000  1      B    d
7 2000  2      B    e

以上是根据你的数据得到的,R中默认的是fromLast=FALSE,即若样本点重复出现,则取首次出现的;否则去最后一次出现的。列名不变,去掉重复样本值之后的行名位置仍为原先的行名位置。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-10-22 14:00:55
用duplicated吧,对data frame特别有效
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群