全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
1917 6
2010-08-14
现在有如下两个数据集合:
data one:
content      group_id     group_prob_i;
123            1                 0.1
456            1                 0.9
789            2                 0.5
101            2                 0.5
...........................
............................

data two:
group_id         sample_size;
1                     4
2                     5
............................
.............................

data one里的三列是:content 是该次观测的实际内容值,那些123和456就是具体的值; group_id是指这次观测所在的组,1就是组1,2就是组2;group_prob_i是指该次观测值在其所在的组内按其表示的概率被抽到。第一行的0.1就是说,当抽样的时候,123这个值在组1中按照0.1的概率被抽到。

data two里的两列是:group_id还是指组的编号,sample_size是指对该组抽几次样。第一行里 group_id是1,就是针对组1;sample_size是4,就是进行四次抽样。结合data one的要求综合起来说就是:对组1按照data one里的概率进行4次抽样。这里抽样都是有放回的。

不知道各位大牛是否有什么好的办法。

先谢谢啦
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2010-8-14 12:18:11
1# akoug

也就是说第一个观测的被抽取一次的概率也不大,是吧?以为10次才有一次机会
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-8-14 12:28:15
0.1其实不代表十次里就能抽中一次吧............
写0.1只是帮助明确一下那个变量的含义,也即每个组其实都有相应的选取概率
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-8-14 21:34:02
akoug 发表于 2010-8-14 09:23
现在有如下两个数据集合:
data one:
content      group_id     group_prob_i;
123            1                 0.1
456            1                 0.9
789            2                 0.5
101            2                 0.5
...........................
............................

data two:
group_id         sample_size;
1                     4
2                     5
............................
.............................

data one里的三列是:content 是该次观测的实际内容值,那些123和456就是具体的值; group_id是指这次观测所在的组,1就是组1,2就是组2;group_prob_i是指该次观测值在其所在的组内按其表示的概率被抽到。第一行的0.1就是说,当抽样的时候,123这个值在组1中按照0.1的概率被抽到。

data two里的两列是:group_id还是指组的编号,sample_size是指对该组抽几次样。第一行里 group_id是1,就是针对组1;sample_size是4,就是进行四次抽样。结合data one的要求综合起来说就是:对组1按照data one里的概率进行4次抽样。这里抽样都是有放回的。

不知道各位大牛是否有什么好的办法。

先谢谢啦
复制代码
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-8-14 23:32:05
十分感谢jingju11 大牛啊
鞠躬
不过我用iml写了一个用矩阵算的意思差不多的code
敢问在处理大一点的数据上,效率有什么差别么
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-8-14 23:49:54
akoug 发表于 2010-8-14 23:32
十分感谢jingju11 大牛啊
鞠躬
不过我用iml写了一个用矩阵算的意思差不多的code
敢问在处理大一点的数据上,效率有什么差别么
说实话,不知道。不过有人认为,如果要处理矩阵的话,iml既简洁又高效。我看你的抽样类似于bootstrap,所以必定要做后续计算。所以,为什么不一直用iml?如果只是sampling,才有比较之必要。
另外,为什么不把你的iml贴出来呢?也好让大家学习。。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群