全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
3151 6
2015-07-10

        有一组数据,字段分别为number date amount等等,对应的是贷款编号,时间和金额等数据,但是质量不好,数据有重复,想找出其中重复的数据,该如何编写程序呢,用proc sql和count来写,总是报错,求大神指教。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-7-10 21:46:57
复制代码
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-7-11 17:38:47
mingfeng07 发表于 2015-7-10 21:46
谢谢大牛 现在已发现确实有重复 可以通过loan_no这个字段排重
例如同一个申请号下如果loan_no相同则保留一个,不同则都保留,比如名下有3笔贷款,但是有六条记录,loan_no分别为1 2 3 3 2 1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-7-11 17:41:03
mingfeng07 发表于 2015-7-10 21:46
程序能不能这么些
proc sort data=tmp;
by appl_no loan_no;
run;
proc sort data=tmp out=tmp1 nodupkey;
by appl_no loan_no;
run;
可以这样去重吗 感觉怪怪的
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-7-11 19:50:03
xt_jane 发表于 2015-7-11 17:41
程序能不能这么些
proc sort data=tmp;
by appl_no loan_no;
复制代码
这一句就可以了,可以加 dupout=xx 来看到底是哪些重复了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-7-11 20:55:31
苹果叶 发表于 2015-7-11 19:50
这一句就可以了,可以加 dupout=xx 来看到底是哪些重复了
那如果需要把去重后的数据中的列变量loan_amount即贷款金额字段按照app_no来加总,但是新的表里一个appl_no就只有一条记录,即将一个客户的多条贷款记录加总后只保留一条新的记录,该怎么写呢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群