全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析师(CDA)专版
2634 4
2016-01-23
有放回的对观测量为N的数据集A抽N次,为什么最后抽出来的样本数据集B的样本量是A的63%?1-(1-N)^N只是说明每个观测进入数据集B的概率为63%吧,有点想不通了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-1-23 13:04:05
我的证明的思路是:

首先,A集合中每个元素设为a(1), a(2), ..., a(i), ..., a(N),任一a(i)没有被抽中进入B集合的概率是:(1-1/N)^N,当N足够大时,此概率就趋近于exp(-1)=0.367879..., 也是说任一a(i)被抽中进入B的概率=1-0.367879=63.2121% (就是你所说的“只是说明每个观测进入数据集B的概率为63%”,但是,不只是这个结论,继续往下看)

第二,构造一组独立同分布(贝努利分布)的随机变量x(1), ...x(i),..., x(N)。而每个x(i)的定义是:若a(i)被抽中进入B集合,则x(i)=1;否则x(i)=0。由于a(i)被抽中进入B的概率是63.2121%,即,每个x(i)~Bernoulli(63.2121%)。

再构造一随机变量S,令S=x(1)+x(2)+...+x(N),不难发现,S正好就是B集合中包含多少个A中元素的数量(因为被抽中进入B集合的A中元素,不管被抽中多少次,在S中仅计入一个1,没被抽中进入B集合的A中元素,在S中计入一个0,那么S正好就是B集合中包含多少个A中元素的数量)。由于S是N个独立同分布的贝努利分布变量之和,就是符合了二项分布,即 S~Binomial(N, 63.2121%)。所以,S的期望(即B集合中包含多少个A中元素的数量的平均值)=N×63.2121%

我水平有限,欢迎批评指正。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-1-23 20:10:58
TimeT 发表于 2016-1-23 13:04
我的证明的思路是:

首先,A集合中每个元素设为a(1), a(2), ..., a(i), ..., a(N),任一a(i)没有被抽中进 ...
cool!很清晰的逻辑,表达的也到位,多谢用心了!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

-->
TimeT 发表于 2016-1-23 13:04
我的证明的思路是:

首先,A集合中每个元素设为a(1), a(2), ..., a(i), ..., a(N),任一a(i)没有被抽中进 ...
X之间是相互独立的吗,P(x[1]=1,x[2]=1])=p(x[1]=1)*p(x[2]=1)?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

-->
游客 123.138.217.x 发表于 2016-4-14 23:58
X之间是相互独立的吗,P(x[1]=1,x[2]=1])=p(x[1]=1)*p(x[2]=1)?
虽然假设x之间相互独立,但是X和A是有直接关系的,A之间显然不是相互独立的
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

分享

扫码加好友,拉您进群