全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
3217 3
2016-02-16
我现在有一个这样的数据集,数据集中的数据可以分为30层,每层数据内相互之间存在一定差别,层与层之间差别较大。我想把整个数据集拆分成60个,需要满足的条件是,从最高层向下随机抽取,最终生成的60个小数据集总数据量一致,里面所包含的每个分层的数据量也一致,每个小数据集中其中一个字段的数值求和近似相等,分布也基本相当,且其他字段的数值做到相互之间差别不大。请问要怎么做呢?

具体上数据集大概是这个样子:

分层  字段1  字段2  字段3
A       1          2         3
A       4          5         6
A       7          8         9
B      10         11        12
B      13         14        15
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-2-17 09:05:28
各位高人,可否给个建议呢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-2-17 09:32:45
请使用Proc surveyselect
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-2-19 15:58:29
co_fund 发表于 2016-2-17 09:32
请使用Proc surveyselect
一种使用sas自带的抽样proc surveryselect,另外就是手动分组,生成随机数,按你需要的变量排序,除以60取余,得到分组编号,输出。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群