全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
9109 16
2011-01-05
我有个数据集有2000万条数据3000个变量,想做PROC MEANS数据量过大,现在想把这个数据集分成10份来分别proc means 然后set在一起,想按里面的变量id来进行分,一个id只能在一个数据集里面出现,请问下这个应该怎么分??
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2011-1-5 13:34:01
data a1 a2...a10;
set b;
if id=1 then output a1;
else if id=2 then output a2;
.....
run;
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-1-5 13:37:17
.....我是想能不能稍微平均点。因为这2000万条数据里面有180万条id。而且每个Id的数量是不一样的 有多有少,能不能分出来的每个数据集在200万条左右。。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-1-5 13:48:43
我没弄懂你意思,目前你有2个要求:
1)将2000万条记录分成10个小数据集,平均每个200万条左右。
2)每个数据集里只能有一个id,也就是说一个数据集200万条记录的id必须是一样的。
我这么理解对么?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-1-5 13:52:32
不是每个数据集里面只能有一个ID 是一个id的所有记录只能存在于一个数据集里面 不能被分割成几部分存放在多个数据集里面,
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-1-5 13:54:55
比如说
1
1
1
2
2
3
3
3



这些id如果分成2份的话 可以分成如下的
第一个数据集
1
1
1
第二个数据集
2
2
3
3
3

而不能是像如下一样
第一
1
1
1
2
第二
2
3
3
3
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群