我现在有一个这样的数据集,数据集中的数据可以分为30层,每层数据内相互之间存在一定差别,层与层之间差别较大。我想把整个数据集拆分成60个,需要满足的条件是,从最高层向下随机抽取,最终生成的60个小数据集总数据量一致,里面所包含的每个分层的数据量也一致,每个小数据集中其中一个字段的数值求和近似相等,分布也基本相当,且其他字段的数值做到相互之间差别不大。请问要怎么做呢?
具体上数据集大概是这个样子:
分层 字段1 字段2 字段3
A 1 2 3
A 4 5 6
A 7 8 9
B 10 11 12
B 13 14 15