请教一个merge的问题

2757

收藏 2013-07-30

有两个数据集，d和c，都已按照a，sex排序。
共同变量是a，sex，b，按照a，sex匹配合并，用c中的变量b更新d中的变量b
运行之后还是有缺失值。怎么搞呢？
数据集如截图；
需要的命令如下：
data a;
input a b;
datalines;
1 44
;
run;
data c;
input a sex b;
datalines;
2 1 676
2 2 88
;
run;
data b;
input id a sex c;
datalines;
12 1 1 2233
13 2 1 23
14 1 2 23
15 2 2 23
16 1 2 23
17 2 1 22
18 2 1 23
19 2 2 23
;
run;

proc sort data=a;
by a;
run;
proc sort data=b;
by a sex;
run;
proc sort data=c;
by a sex;
run;
data d;
merge b a;
by a;
run;
proc sort data=d;
by a sex;
run;
data e;
merge d c;
by a sex;
run;
我的问题就是，新数据集e中有些变量b的值还是保留了d中的缺失值，我的目的是缺失值全部用c中的值替代

附件列表

搜狗截图13年07月30日1122_1.jpg

原图尺寸 105.12 KB

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

Imasasor

2013-7-30 11:32:07

读前面几句话，感觉像在读绕口令，期待高手

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

吕小布韦

2013-7-30 12:30:26

Imasasor 发表于 2013-7-30 11:32
读前面几句话，感觉像在读绕口令，期待高手

那我改一改。。。你都搞不定呀。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

吕小布韦

2013-7-30 12:31:54

Imasasor 发表于 2013-7-30 11:32
读前面几句话，感觉像在读绕口令，期待高手

怎么修改帖子啊。。。那个已阅是有啥作用的？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

Imasasor

2013-7-30 12:35:01

吕小布韦发表于 2013-7-30 12:31
怎么修改帖子啊。。。那个已阅是有啥作用的？

没啥作用，就是表明版主大人我看过了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yongyitian

2013-7-30 12:46:03

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

pobel

2013-7-30 12:51:11

data e;
   merge d  c(rename=(b=b_in_c));
   by a sex;
    if missing(b) then b=b_in_c;
   drop b_in_c;
run;

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

吕小布韦

2013-7-30 13:19:25

pobel 发表于 2013-7-30 12:51
data e;
merge d c(rename=(b=b_in_c));
by a sex;

好巧妙。。。谢谢！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

吕小布韦

2013-7-30 13:20:08

yongyitian 发表于 2013-7-30 12:46

先谢谢了！说实话看不太懂。一会儿一点儿一点儿学习！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

吕小布韦

2013-7-30 13:25:37

pobel 发表于 2013-7-30 12:51
data e;
merge d c(rename=(b=b_in_c));
by a sex;

那，这个问题是怎么产生的呢？不是说merge语句会用后面一个数据集的变量覆盖掉前面一个数据集的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

pobel

2013-7-30 13:42:16

吕小布韦发表于 2013-7-30 13:25
那，这个问题是怎么产生的呢？不是说merge语句会用后面一个数据集的变量覆盖掉前面一个数据集的。

这种情况是在进行多对一或一对多merge时很容易忽略的。
楼主的例子中merge数据集D和C时属于多对一merge。这里的关键一点在于，SAS对于C中的每条记录只会读取一遍。以a=2, sex=1为例，SAS的读取过程是这样的：
1.
a. 读取数据集D的第4条记录，PDV中变量b的值为空值；
b. 读取数据集C的第1条记录，PDV中变量b的值被C中变量b的值676覆盖；
c. OUTPUT

2.
a. 读取数据集D的第5条记录，PDV中变量b的值676被新读入的空值覆盖；
b. OUTPUT (这里不会再次读取数据集C中的记录，因为C中只有一条满足a=2,sex=1的记录)；

3. 同2，会读入数据集D的第六条记录，新读入的变量b的空值覆盖原来的空值，然后OUTPUT;

楼主所说的后面数据集的变量值覆盖前面数据集的变量值，只有在SAS对这两个数据集同时读取的时候才会发生，如一对一，多对多的merge。而多对一的merge，因为对于每一组，后面的"一"只会读取一次，所以也就只会“覆盖”一次。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

吕小布韦

2013-7-31 08:11:50

pobel 发表于 2013-7-30 13:42
这种情况是在进行多对一或一对多merge时很容易忽略的。
楼主的例子中merge数据集D和C时属于多对一merge。 ...

谢谢了！茅塞顿开！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jolterheadmmtt

2013-8-13 14:54:57

pobel 发表于 2013-7-30 12:51
data e;
merge d c(rename=(b=b_in_c));
by a sex;

我也想问这个问题，为什么lz那么写不行？merge为什么只覆盖了第一行观测？
谢谢大神指教啊

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群