现在有如下两个数据集合:
data one:
content group_id group_prob_i;
123 1 0.1
456 1 0.9
789 2 0.5
101 2 0.5
...........................
............................
data two:
group_id sample_size;
1 4
2 5
............................
.............................
data one里的三列是:content 是该次观测的实际内容值,那些123和456就是具体的值; group_id是指这次观测所在的组,1就是组1,2就是组2;group_prob_i是指该次观测值在其所在的组内按其表示的概率被抽到。第一行的0.1就是说,当抽样的时候,123这个值在组1中按照0.1的概率被抽到。
data two里的两列是:group_id还是指组的编号,sample_size是指对该组抽几次样。第一行里 group_id是1,就是针对组1;sample_size是4,就是进行四次抽样。结合data one的要求综合起来说就是:对组1按照data one里的概率进行4次抽样。这里抽样都是有放回的。
不知道各位大牛是否有什么好的办法。
先谢谢啦