如何运用SAS对下列数据进行处理

godtears

5104

收藏 2009-08-21

悬赏 500 个论坛币已解决

code day event    x
1       02       0    1.9
1       03       0    3.3
1       04       1    -4
1       05       1    18
2       01       0       6
2       02       0    4
2       03       1       7

其中：event为指示变量,当=1表示某事件发生；code表示代码，day表示日期，x表示要计算的变量。
现在的问题是，如何运用SAS编程实现：找出event=1的观测，计算它前两天x的均值。以上面数据为例，day=04时，event=1，所以对该天来说，前两天x的均值=(1.9+3.3)/2；day=05时，event=1，所以对该天来说，前两天x的均值=(3.3-4)/2。
从而得到如下结果：

code day  event    x    mean
1       04 1       -4       2.6
1       05 1       18 -0.35
2       03 1          7       5
3       05 1       10       0.7
3       08 1       -9    -5.8

最佳答案

地狱小子查看完整内容

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

地狱小子

2009-8-21 23:39:42

*间隔的天数;
%let interval=2;
data a;
input code day event x;
datalines;
1       02       0    1.9
1       03       0    3.3
1       04       1    -4
1       05       1    18
2       01       0       6
2       02       0    4
2       03       1       7
;
run;
proc sql;
create table result as
select code,day,event,x,
(select sum(x)
  from a t2
  where t2.code=t1.code and t2.day<t1.day and t2.day>=t1.day-&interval)/&interval
as mean_&interval
from a t1
where event=1
;
quit;

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

losttemple

2009-8-21 23:50:36

使用函数lag lag2

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sushe1527

2009-8-22 00:05:44

losttemple 发表于 2009-8-21 23:50
使用函数lag lag2

这是有钱人~

data a;
input code day$ event    x@@;
x1=lag(x);
x2=lag2(x);
if event=1 then mean=0.5*(x1+x2);
if event=0 then delete;
drop x1 x2;
cards;
1       02       0    1.9
1       03       0    3.3
1       04       1    -4
1       05       1    18
2       01       0       6
2       02       0    4
2       03       1       7
;run;

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

godtears

2009-8-22 00:06:18

2# losttemple

能否说得清楚一点？
而且，我感觉lag只是函数，如何将event=1的事件点挑出来计算是首先要解决的问题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

godtears

2009-8-22 00:13:03

3# sushe1527

感谢你的回复，
但你提出的这个思路不是很到位，不通用。
比如说，我现在不是想求事件点前两个数值的平均数，而是前三十个数值，或者自己定义的任何数量的数值的平均数或者标准差呢？
能否有更加一般化的程序吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

godtears

2009-8-22 00:35:55

2# losttemple
上面这个求贴，其实是事件研究的一个简化：
研究上市公司公告的信息含量，
一家公司可能一年内发布不止一次公告,但也有可能一家公司一年内一次公告都没有.
我现在就是要解决在一个公告前后若干天,收益率的变化情况。
比如说配股事件出来前后5天累计收益是多少？
或者增发事件出来前后10天平均收益是多少？前后30天收益标准差是多少？
我期待的是一个通用的程序，
谢谢各位达人啊！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

地狱小子

2009-8-22 11:01:03

修改
.....

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

godtears

2009-8-22 11:36:22

8# 地狱小子
哈，对我启发很大，谢谢！
有一个小疑问，假如我想求的某段区间的标准差，而不是平均数，程序要如何修改？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ddd1000

2009-8-22 11:39:00

Hope answer your question and get the rewards.
A general answer:

%let n=2;
data tem;
input code day event x;
datalines;
1       02       0    1.9
1       03       0    3.3
1       04       1    -4
1       05       1    18
2       01       0       6
2       02       0    4
2       03       1       7
;
run;

proc sort data=tem;

data tem;

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

losttemple

2009-8-22 12:01:47

把sum改成std

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ddd1000

2009-8-22 12:03:10

Hope answer your question and get the rewards.
A general method.

%let n=2;
%let m=%eval(&n+1);
data tem;
input code day event x;
datalines;
1       02       0    1.9
1       03       0    3.3
1       04       1    -4
1       05       1    18
2       01       0       6
2       02       0    4
2       03       1       7
;
run;

proc sort data=tem;
by code day;
run;

data tem;
set tem;
array m[&m] a1-a&m;
  retain a1-a&m;
by code day;
  if first.code then count=.;
  count+1;
  if count<=&m then m[count]=x;
  else do;
   do i=1 to &n;
      m[i]=m[i+1];
   end;
   m[&m]=x;
  end;

  do j=1 to &n;
   sum=sum+m[i];
  end;
  avg=sum/&n;
run;

data out;
set tem;
if event=1;
run;

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ddd1000

2009-8-22 12:05:55

a little mistake in code:
change sum=sum+m[j];

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ddd1000

2009-8-22 12:19:11

revised total program.

Hope answer your question and get the rewards.
A general method.
%let n=2;
%let m=%eval(&n+1);
data tem;
input code day event x;
datalines;
1       02       0    1.9
1       03       0    3.3
1       04       1    -4
1       05       1    18
2       01       0       6
2       02       0    4
2       03       1       7
;
run;
proc sort data=tem;
by code day;
run;

data tem;
set tem;
array m[&m] a1-a&m;
  retain a1-a&m;
by code day;
  if first.code then do;
   count=.;
   do i=1 to &m;
      m[i]=.;
   end;
  end;

  count+1;
  if count<=&m then m[count]=x;
  else do;
   do i=1 to &n;
      m[i]=m[i+1];
   end;
   m[&m]=x;
  end;
  do j=1 to &n;
   sum=sum+m[j];
  end;
  avg=sum/&n;
run;
data out;
set tem;
if event=1;
run;

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

地狱小子

2009-8-22 12:21:07

人在外手机回复下，sum改成std，除数去掉

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ddd1000

2009-8-22 12:42:35

The SQL method code is short but have a problem for some special situation.
for example:

day=04 event=1 before this record there are two records before it. if we want to calculate the 3 records before it. because there are only two records, the mean should be missing but the SQL code will just calculate the mean of two records before it.
This example is just calculate the moving average. Let's say 10 days average, before 10 days there are no 10 days average.
just for discussion. SQL sometimes can give a quick answer. but we need to think some special situation and to make the code robust and strong

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

godtears

2009-8-22 12:47:31

14# ddd1000

哇，SAS高手好多啊！
正在领悟程序中。。。。。。。
相比，地狱小子的程序更简炼更好懂些。。。。。。
不管怎样，谢谢啦。。。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

godtears

2009-8-22 12:58:55

16# ddd1000

按你的意思，
假设我们要计算某事件之前三天的平均收益率，
只要这三天有一个收益率数值缺失，你的程序算出来的平均收益率也是为缺失。
而地狱小子给出的程序是：平均收益率是计算没有缺失的数值的均值，如果少一个，就算两个数值的平均数。
是这样子吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ddd1000

2009-8-22 13:09:00

right, It depends what you want. My program actually can do both. you just need a little bit change in the part of sum and mean calculation.

Let say a group of data

day  1  2 3 4 5 6 7 8  9  10
X    3 5 6  8  6 9 2  10 11 12

if calculate 5 days mean
the data sould looks like:
day  1  2 3 4 5 6 7 8  9  10
X    3 5 6  8  6 9 2  10 11 12
mn  . .    . . .    (3+5+6+8+6)/5 on day 5
                              (5+6+8+6+9)/5 on day 6 etc

if you want just calculate whatever data within 5 days before(like missing data or only 2 or 3 data
you just calculate of those data .

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

godtears

2009-8-22 15:27:02

19# ddd1000

Thanks a lot,
But,
the same question I have asked is:
If I want to get the standard deviation not the average,
how to change the SAS codes you write.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

地狱小子

2009-8-22 17:36:30

考虑缺失值的情况

*间隔的天数;
%let interval=2;
data a;
input code day event x;
datalines;
1       03       0    3.3
1       04       1    -4
1       05       1    18
2       01       0       6
2       02       0    4
2       03       1       7
;
run;
proc sql;
create table result as
select code,day,event,x,
(select std(x)
    from a t2
where t2.code=t1.code and t2.day<t1.day and t2.day>=t1.day-&interval)
*(case (exists (select 1 from a t3 where t3.code=t1.code and t3.day=t1.day-&interval))
when 0 then . else 1 end)
as mean_&interval._includemissing
from a t1
where event=1
;
quit;

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

地狱小子

2009-8-22 17:43:07

Although SQL PROC of SAS is so disabled, it could do most things.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ddd1000

2009-8-23 09:41:12

The new SQL code still doesnot cover the situation if one of the data in the middle is missing.
If you consider and think thoroughly, the SQL will become complicated and run slowly.

anyway proc sql and data step each has strength and weakness.
My opinion is data step is more stronger but proc sql sometimes is good for quick and dirty solution and sometimes proc sql has strength for some problems solving.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ddd1000

2009-8-23 09:45:48

as to std, from statistics, you know how to calculate the standard deviation. it is
square root of [sum (x-mean)*(x-mean)/&n], so you can add code for std calculation.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ddd1000

2009-8-23 09:47:57

square root of [sum (x-mean)*(x-mean)]/&n

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ddd1000

2009-8-23 10:00:27

* the program includine mean and standar deviation;

revised total program.
Hope answer your question and get the rewards.
A general method.
%let n=2;
%let m=%eval(&n+1);
data tem;
input code day event x;
datalines;
1       02       0    1.9
1       03       0    3.3
1       04       1    -4
1       05       1    18
2       01       0       6
2       02       0    4
2       03       1       7
;
run;
proc sort data=tem;
by code day;
run;
data tem;
set tem;
array m[&m] a1-a&m;
  retain a1-a&m;
by code day;
  if first.code then do;
   count=.;
   do i=1 to &m;
      m[i]=.;
   end;
  end;
  count+1;
  if count<=&m then m[count]=x;
  else do;
   do i=1 to &n;
      m[i]=m[i+1];
   end;
   m[&m]=x;
  end;
  do j=1 to &n;
   sum=sum+m[j];
  end;
  avg=sum/&n;

  do j=1 to &n;
   sumsq=sumsq+(m[j]-avg)**2;
  end;
  std=sumsq/&n;

run;

data out;
set tem;
if event=1;
run;

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ddd1000

2009-8-23 10:04:50

std=sqrt(sumsq/&n);

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

地狱小子

2009-8-23 10:04:54

看来还是不能偷懒啊

*间隔的天数;
%let interval=2;
data a;
input code day event x;
datalines;
1       02       0    .
1       03       0    3.3
1       04       1    .
1       05       1    18
2       01       0       6
2       02       0    4
2       03       1       7
;
run;
proc sql;
      create table result as
            select code,day,event,x,
                     (select std(x)
                              from a t2
                              where t2.code=t1.code and t2.day<t1.day and t2.day>=t1.day-&interval)
                     *(case (exists (select 1 from a t3 where t3.code=t1.code and t3.day=t1.day-&interval))
                              when 0 then . else 1 end)
                     *(case t1.x when . then . else 1 end)
                     as mean_&interval._includemissing
                     from a t1
                     where event=1
;
quit;

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ddd1000

2009-8-23 10:21:21

I do not think it is correct.
not actually t1.x is missing is missing.
should be any record is missing within interval before the record.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

godtears

2009-8-23 16:04:49

29# ddd1000

从我个人角度来看，
地狱小子的程序有点小缺陷，但就我现在的研究而言，不是致命的。并且，程序很简炼，很适合我这个初学者来看。
而ddd1000的程序很严谨，唯一不足的地方：不容易看懂。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

最佳答案

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群