proc sql 中一个疑问！！！为啥呢！！？

1749

收藏 2012-05-30

Hi 在编程的过程中出现一个疑问问题！！希望大家帮忙答疑哇！！
proc sql;
create table retvar as
select a.*, b.aret, b.resp from rerr as a left join resp_t as b
on a.firmi = b.firmi and a.datadate = b.datadate;
quit;
这个非常普通的程序运行之后出现好几倍的重复观测值！！本来 rerr数据集一个大约50万个observation，resp_b 大约10万个observation，生成的数据集retvar一共竟有几千万个 observation！！这是怎么产生的？？！！我之后使用了proc sort data =retvar nodupkey;
by firmi datadate peer;
run;
去掉了90%的重复值！！
童鞋们我以前也遇到过类似的问题一直不知道问题出在哪里，还请告知其中原理哇！！不胜感激！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

jintianxiu

2012-5-30 20:59:40

顶一下啊

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mymine

2012-5-30 21:45:55

遇到过一次拼接导致数据量狂增的情况，主要原因是
on a.xx=b.xx;
这个语句中a数据表中的XX和b数据表中的xx分别有几千条空白数据
空白和空白相等导致数据变成几千乘以几千，最终数据暴增

您的情况要具体看，我遇到的情况仅供参考

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tj0412ymy

2012-5-30 21:56:07

出现重复观测值是因为匹配时出现了多对多的情况，建议在Select语句中添加Distinct

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

snoozer

2012-5-30 23:10:19

For example, in data "rerr", you have
firmi database  peer
1    1          1
1    1          2
1    1          3
....

And in data "resp_t", you have
firmi database  aret
1    1          0.89
1    1          0.12
1    1          0.40
...

By merging, you will have
firmi database  peer  aret
1    1          1    0.89 *
1    1          1    0.12
1    1          1    0.40
1    1          2    0.89 *
1    1          2    0.12
1    1          2    0.40
1    1          3    0.89 *
1    1          3    0.12
1    1          3    0.40
...

When you perform proc sort, only the row with * will remain in the sorted data set. The question is which data set is the real one you want.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

chendonghui1987

2012-5-30 23:35:42

楼上正解

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

jintianxiu

2012-5-31 11:09:37

snoozer 发表于 2012-5-30 23:10
For example, in data "rerr", you have
firmi database peer
1 1 1

多谢！不过actually 在数据resp_t 中， the structure is
firmi database aret
1    1       0.89
1    2       0.12
2    1       0.40
2    2       0.29
2    3       0.40
2    4       0.9
3    1       0.7
3    2       0.3
....
所以还是不明白为啥数据暴增呢

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jintianxiu

2012-5-31 11:10:55

mymine 发表于 2012-5-30 21:45
遇到过一次拼接导致数据量狂增的情况，主要原因是
on a.xx=b.xx;
这个语句中a数据表中的XX和b数据表中的x ...

谢谢不过这个确实是有大量的duplicates 所以应该不是这个情况，继续探索中！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jintianxiu

2012-5-31 11:12:09

tj0412ymy 发表于 2012-5-30 21:56
出现重复观测值是因为匹配时出现了多对多的情况，建议在Select语句中添加Distinct

不是很明白，我的两个数据的structure可以参见我的回复，和另一楼的回复。不知道该如何添加distinct呢，望指教哇！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

snoozer

2012-6-1 00:06:14

jintianxiu 发表于 2012-5-31 11:09
多谢！不过actually 在数据resp_t 中， the structure is
firmi database aret
1 1 0.89 ...

That's a mystery ...
Then print out the merged data set and check where goes wrong, where the redundancy comes from.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群