在此请教各位高手,我现在要从一个很大的数据集(有120万个观测)中生成一个新的小一点(1万个左右的观测)的数据集。问题是:
1. 原数据集的400多个变量只要保留70个,这70个的变量的顺序要根据需要重新排一下。而且还要生成一些新的变量夹在这70个变量之中。对于处理这样的大的数据集没有经验,害怕占用太多CPU时间,所以想问一下,怎么能比较快地生成新数据集?
如果我还想保证变量的顺序,例如原数据集的变量名var1, var2, var3, var4, var5都将被选中进入新的数据集,但是新的顺序是var3, var2, var1, var4, var5。而且要在var4和var5之间添加一个新的变量newvar1。我可以写set old_data_set (keep=var3 var2 var1 var4 var5); newvar1=....;那么在数据集输出成文本文件的时候,把newvar1写在var5的前面,就可以保证所要求的顺序吗?
2. 需要对一些变量做分层不等比例取样来生成新的数据集。
对于大的数据集,可以用proc sql来进行信息汇总吗?担心CPU响应时间会很长,因为很多人在用同一个SAS服务器,所以怕影响整个的系统性能。
谢谢大家了。