merge 的问题

suly

7804

收藏 2010-07-20

假设两个数据集样本不一样，部分相同，我想得到按数量少的那个数据集的样本，因为小样本已经删了某些不想要的，大样本没有。如何得到呢

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

yixing1982

2010-7-20 22:35:16

把小样本做master,merge之后，保留master和merge的部分，你看这样可以吧？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

suly

2010-7-20 22:47:14

master什么意思啊。直接merge 好像也不是完全是大样本，比大样本的数还多。A数据集有13365个观测值。B数据集有 13804观测值，但是合并完了后有15445个。这是怎么回事啊。A集有stkcd,year,earning cfo 等等年报数据，B集有stkcd,year,car. 我是merge by stkcd year。这个应该不难，但是我不会。sql可以吗，怎么用呢

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nkwilling

2010-7-21 09:41:28

MERGE和SQL在一对一或多对一的情况下看不出区别,但是在多对多的情况下就会看出这种区别.根本原因如下:
1.SQL是按照JOIN的变量值进行匹配.比如A数据集中的变量X=1有两个,B数据集中的X=1有三个,如果用SQL,则A.X=B.X将产生2*3=6条记录.
2.MERGE是按照BY的变量位置进行匹配.对上面的A和B数据集, 首先是A数据集中的第一个X=1和B数据集中的第一个X=1匹配,然后是A数据集中的第二个X=1和B数据集中的第二个X=1匹配,而对于B数据集中的第三个X=1则单独输出.

你最好用不同的数据集测试一下两者之间的区别.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sunnytree

2010-7-21 10:08:37

一个做法是这样的：

1、用sql命令将大样本（bigsample）的数据集多余的样本删除，得到一个新的数据集(newdata)；

proc sql noprint;
create table newdata as
select *
from bigsample
where exists (select * from smallsample where smallsample.stkcd=bigsample.stkcd)
;
quit;

2、再用merge命令将小样本的数据集（smallsample）与新的数据集(newdata)合并

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

suly

2010-7-21 15:34:20

5# sunnytree
谢谢你。我按你的方法做了。但是newdata并不是和small sample 的样本是一样的。car是variable。car1是数据集。
proc sql noprint;
      create table port as
      select stkcd, year, car
      from car1
      where  exists (select stkcd,year from repr18  where repr18.stkcd=car1.stkcd | repr18.year=car1.year)
;
quit;

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

suly

2010-7-21 15:36:39

完了以后新数据集里还有一些big sample有而small sample 没有的股票，就是我想踢除的数据

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

pobel

2010-7-21 16:01:01

suly 发表于 2010-7-21 15:36
完了以后新数据集里还有一些big sample有而small sample 没有的股票，就是我想踢除的数据

用left join 吧

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

pobel

2010-7-21 16:07:32

nkwilling 发表于 2010-7-21 09:41
MERGE和SQL在一对一或多对一的情况下看不出区别,但是在多对多的情况下就会看出这种区别.根本原因如下:
1.SQL是按照JOIN的变量值进行匹配.比如A数据集中的变量X=1有两个,B数据集中的X=1有三个,如果用SQL,则A.X=B.X将产生2*3=6条记录.
2.MERGE是按照BY的变量位置进行匹配.对上面的A和B数据集, 首先是A数据集中的第一个X=1和B数据集中的第一个X=1匹配,然后是A数据集中的第二个X=1和B数据集中的第二个X=1匹配,而对于B数据集中的第三个X=1则单独输出.

你最好用不同的数据集测试一下两者之间的区别.

B数据集中的第三个也会和A中的第二个匹配。

如果A中x=1有m个，B中有n个，且m<n, 则前m-1行A和B分别一一匹配。 B的第m行到第n行都会和A的第m行匹配。

data A;
input x y;
datalines;
1 2
1 3
;
data B;
input x z;
datalines;
1 4
1 5
1 6
1 7
;
data C;
merge a b;
by x;
run;

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

BraveMadMan

2010-7-21 20:55:59

pobel 发表于 2010-7-21 16:01
suly 发表于 2010-7-21 15:36
完了以后新数据集里还有一些big sample有而small sample 没有的股票，就是我想踢除的数据
用left join 吧

同感

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

suly

2010-7-21 23:24:47

8# pobel
谢谢。可是还是有错误。
proc sql ;
      create table port as
      select stkcd, year, sale,tacc,ppe,ar,ta,earn,cfo,y,t,c,e
      from repr18
      left join car on repr18.stkcd=car.stkcd and repr18.year=car.year
;
quit;

ERROR: Ambiguous reference, column stkcd is in more than one table.
ERROR: Ambiguous reference, column year is in more than one table.
27 quit;
引用不明确什么意思啊，每个stock变量对应10年呢，每个year变量对应所有的A股呢。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

suly

2010-7-21 23:28:00

8# pobel
谢谢。可是还是有错误。
proc sql ;
      create table port as
      select stkcd, year, sale,tacc,ppe,ar,ta,earn,cfo,y,t,c,e
      from repr18
      left join car on repr18.stkcd=car.stkcd and repr18.year=car.year
;
quit;

ERROR: Ambiguous reference, column stkcd is in more than one table.
ERROR: Ambiguous reference, column year is in more than one table.
27 quit;
引用不明确什么意思啊，每个stock变量对应10年呢，每个year变量对应所有的A股呢。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

BraveMadMan

2010-7-21 23:32:37

suly 发表于 2010-7-21 23:24
8# pobel
谢谢。可是还是有错误。
proc sql ;
      create table port as
      select stkcd, year, sale,tacc,ppe,ar,ta,earn,cfo,y,t,c,e
      from repr18
      left join car on repr18.stkcd=car.stkcd and repr18.year=car.year
;
quit;

ERROR: Ambiguous reference, column stkcd is in more than one table.
ERROR: Ambiguous reference, column year is in more than one table.
27 quit;
引用不明确什么意思啊，每个stock变量对应10年呢，每个year变量对应所有的A股呢。

引用不明确是说你要的变量存在于多个你引用的数据库，SAS不知道去那个数据库里找你要的变量。

select repr18.stkcd, repr18.year, sale,tacc,ppe,ar,ta,earn,cfo,y,t,c,e
from repr18 left join car on repr18.stkcd=car.stkcd and repr18.year=car.year；

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

suly

2010-7-22 00:33:32

proc sql ;
      create table port as
      select repr18.stkcd, repr18.year, repr18.sale,repr18.tacc,repr18.ppe,repr18.ar,repr18.ta,repr18.earn,repr18.cfo,repr18.y,repr18.t,repr18.c,repr18.e
      from repr18
      left join car on repr18.stkcd=car.stkcd and repr18.year=car.year;
quit;
呵呵问题解决了，是因为我在select 变量前没有加数据库的名称。谢谢各位。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

lavendercao

2011-8-3 18:02:08

没看懂啊！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xiayuguoguo

2012-7-31 20:39:21

用merge,在小数据集后面写（in=a);然后写if a;就可以了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群