求一个简单的小程序

beci426

3851

收藏 2013-06-15

悬赏 100 个论坛币已解决

现在有个非常简单的问题。
我又unbalanced panel data 我想处理成为带有缺失值的panel data

想把上图变成下图的效果。
现在的情况是 ID很多很多。。但是date 就10天。
要是原来数据没有，就把所有ID的所有Date补齐之后，其他设为缺失值。

数据量有上百万条，尽量讲求效率

希望大神不吝赐教。
这个问题之后还有若干小问题。论坛币可以再追加

最佳答案

boe 查看完整内容

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

boe

2013-6-15 15:00:50

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

beci426

2013-6-15 15:01:36

excel表格在这里。希望大家帮助！万分感谢！

附件列表

123.xlsx

大小:8.7 KB

马上下载

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

beci426

2013-6-15 15:07:47

希望大家不吝赐教！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

dingfu295

2013-6-15 15:43:56

123.xlsx
大小:(10.76 KB)

马上下载

excel就行了，不需要编程

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

boe

2013-6-15 15:44:45

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

boe

2013-6-15 16:05:22

这个可能最快。。。

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

beci426

2013-6-15 17:04:58

boe 发表于 2013-6-15 16:05
这个可能最快。。。

您好，非常感谢您的回答！
有两个小的问题
1 如果要是id中不仅是数字还有字母，而且id数量众多。应该如何解决？
2 本身样本量大，超百万行，全部读入hash可能内存不够。有没有其他办法或者思路呢？
非常感谢！论坛币我一定会给您的！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

boe

2013-6-15 19:15:41

beci426 发表于 2013-6-15 17:04
您好，非常感谢您的回答！
有两个小的问题
1 如果要是id中不仅是数字还有字母，而且id数量众多。应该如 ...

i提供点原始数据看看？
百万行放在内存中应该没问题吧，变量很多吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

temple89

2013-6-15 19:21:11

楼主，做两次转置即可。程序如下：

data t1;
input id date quan price;
datalines;
1 1 10 2
1 2 9 2
2 1 8 2
2 2 7 2
2 3 6 2
3 2 5 2
;
run;

proc transpose data=t1 out=t2(drop=_name_) prefix=date;
by id;
id date;
var quan price;
run;

proc transpose data=t2 out=t3;
by id;
var date1 date2 date3;
run;

data final;
set t3;
length date 8.;
_name_=compress(_name_,'date');
drop _name_;
rename col1=quan col2=price;
run;

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

823954913

2013-6-16 09:10:23

我来补充一下下。
data t1;
   input id $ date quan price;
datalines;
1       1       10       2
1       2       9       2
2       1       8       2
2       2       7       2
2       3       6       2
3       2       5       2
mm    5       4       2
;
run;
proc sort data=t1(keep=id) out=t2 nodupkey;by id ;run;
data t2;
set t2;
      do date=1 to 10;
         call missing(quan,price);
            output;
      end;
run;
data t3;
update  t2 t1;
by id date;
run;

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

bobguy

2013-6-16 09:53:40

Here is a simple data step solution in a simple logic. Assume data is sorted by id date and the variable date is a sas numerical variable.

k=1;  <---- 1 is lower bound
do s=k to 3;  <-- 3 is upper bound.

data t1;
input id date quan price;
datalines;
1       1       10       2
1       2       9       2
2       1       8       2
2       2       7       2
2       3       6       2
3       2       5       2
;
run;

  data t1;
retain k;
set t1;
by id;
if first.id then k=1;
do s=k to date-1;
   quan_new=.; price_new=.;
   output;
end;
quan_new=quan ; price_new=price;
output;
k=date+1;
if last.id then do;
   do s=k to 3;
      quan_new=.; price_new=.;
      output;
   end;
end;
drop date quan price k;
rename s=date;

  run;

  proc print;run;

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yongyitian

2013-6-16 10:13:31

/*  Here is another way, it use do-loop and sort          */
/*  Try the following code to see if it is faster                */
/*  than merge and hash table for this special problem */

data test;                /* create the sample data set */
do ID = 1000001 to 1100000;
   do date = ceil(ranuni(123)*10) to ceil(ranuni(123)*10);
      quan = ceil(ranuni(123)*100);
      price = round(ranuni(123)*100,0.01);
      output;
   end;
end;
run;

proc sort data=test;    /* the sorting is required if real data was not sorted */
by id date;       run;

data test1;
  set test;
  by id;
if first.id then do; output;
   if date ^= 1 then do;
      do i =  date-1 to 1 by -1;
         date = i; call missing(quan, price);
         output;    /* fill the missing date          */
      end;       /* end of loop for fill missing date */
   end;          /* end of loop for data^=1          */
end;             /* end of loop for first.id       */
if not last.ID then output;
if last.ID then do; output;
   if date ^=10 then do;
      do i = date+1 to 10;
         date = i;  call missing(quan, price); output;
      end;
   end;
end;
drop i;
run;

proc sort data=test1 out = result nodupkey;
by id date; run;

proc print data=result(obs=100); title 'result'; run;

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

boe

2013-6-16 10:48:57

823954913 发表于 2013-6-16 09:10
我来补充一下下。
data t1;
input id $ date quan price;

嗯，学习了。效率应该可以。。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

boe

2013-6-16 10:55:56

yongyitian 发表于 2013-6-16 10:13
/* Here is another way, it use do-loop and sort */
/* Try the following code to see if ...

排序过程可能会耗去很多时间啊。。。。maybe。。。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yongyitian

2013-6-16 11:12:42

boe 发表于 2013-6-16 10:55
排序过程可能会耗去很多时间啊。。。。maybe。。。。

Yes, you are right. It must be taken into account.
Sometime sorting use more time than computing.
However, for this case the hash table may be too large.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

邓贵大

2013-6-16 11:49:09

复制代码

黄泉下阴气太重，出来凑个热闹，不敢跟大家比EFFICIENCY

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

boe

2013-6-16 12:16:33

邓贵大发表于 2013-6-16 11:49
黄泉下阴气太重，出来凑个热闹，不敢跟大家比EFFICIENCY

Your excellent SAS skills should have inhibited the dummy of id=2,but be careful even now!

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

bigDatafan

2013-6-16 15:58:09

学习了。各位大神。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

老师她摸我

2013-6-16 18:45:52

beci426 发表于 2013-6-15 17:04
您好，非常感谢您的回答！
有两个小的问题
1 如果要是id中不仅是数字还有字母，而且id数量众多。应该如 ...

下面这个就不限ID的变量类型了！

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

beci426

2013-6-16 20:23:13

temple89 发表于 2013-6-15 19:21
楼主，做两次转置即可。程序如下：

data t1;

很感谢您的思路和回答！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

beci426

2013-6-16 20:23:15

temple89 发表于 2013-6-15 19:21
楼主，做两次转置即可。程序如下：

data t1;

很感谢您的思路和回答！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

beci426

2013-6-16 20:24:32

yongyitian 发表于 2013-6-16 10:13
/* Here is another way, it use do-loop and sort */
/* Try the following code to see if ...

这么效率确实有点低。。原数据有斤千万条。。而且我的小破电脑还不咋行~！不过非常感谢您的回答！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

beci426

2013-6-16 20:25:09

邓贵大发表于 2013-6-16 11:49
黄泉下阴气太重，出来凑个热闹，不敢跟大家比EFFICIENCY

太感谢您了！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

beci426

2013-6-16 20:25:59

boe 发表于 2013-6-16 12:16
Your excellent SAS skills should have inhibited the dummy of id=2,but be careful even now!

您好！我现在没有很理解邓贵大大神的解答方案，您评价说可能是最好的解决方案。可否简要给说说为什么呢？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

beci426

2013-6-16 20:26:41

老师她摸我发表于 2013-6-16 18:45
下面这个就不限ID的变量类型了！

太感谢您了！！hash用的如此纯熟！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

最佳答案

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群