全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
10117 8
2012-12-19
求解:二项分布资料的z检验,求得z值后为什么要查t界值表,而不查标准正态分布表界值?二项分布资料的z检验在软件中如何实现呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2012-12-19 12:15:59
本章用到了概率论中的二项分布和多项分布公式,这里做简要说明。

一个事件必然出现,就说它100%要出现。100%=1,所以100%出现的含义就是出现的概率P=1。

即必然事件的出现概率为1。

二项分布

如果掷一枚硬币,正面向上的结局的概率为0.5 。反面向上的结局的概率也是0.5 。那么出现正面向上事件或者反面向上事件的概率就是0.5+0.5=1 ,即二者必居其一。

如果掷两次硬币,根据独立事件的概率乘法定理那么两次都是正面(反面)向上的概率是0.5×0.5=0.25。另外第一个是正第二个是反的出现概率也是0.5×0.5=0.25。同理第一个反第二个正的出现概率也是0.5×0.5=0.25。于是一正一反的概率是前面两个情况的和,即0.25+0.25=2×0.25=0.5 。它们的合计值仍然是1。列成表就是:

两个正面的概率
一正一反的概率
两个反面的概率

0.25
2×0.25=0.5
0.25


 

注意到代数学中

(a+b)2=a2+2ab+b2,

而在a=0.5,b=0.5时,有

12=(0.5+0.5)2=0.25+2×0.5×0.5+0.25=1

这说明掷两次硬币的各个结局的出现概率可以通过对二项式的平方展开而得到。顺此,对于掷n次硬币的各种结局的出现概率也可以通过对二项式的n次方的展开而得到。

例如n=3时,有(注意0.5×0.5×0.5=0.125)

13=(0.5+0.5)3=0.125+3×0.125+3×0.125+0.125=

0.125+0.375+0.375+0.125=1

上式4项中的4个概率值0.125、0.375、0.375、0.125分别对应于3正、2正1反、1正2反和3反,这四种结局。

注意到对二项式的展开的牛顿公式:

(a+b)n=an+nan-1b+…+[n!/m!(n-m)!](an-mbm)+…bn

把a,b分别等于0.5代入上式我们就得到n+1项,以其通项而论,它就代表了有n-m个正面m个反面的事件的出现概率。即这种类型的问题(如掷多次硬币)的概率分布恰好可以用二项式展开的牛顿公式表示。而这也就是为什么把这种概率分布类型称为二项分布的原因。

如果a,b并不等于0.5,那么只要把A事件出现的概率以p代入,把B事件的出现概率以(1-p)代入,以上公式仍然正确,(a+b仍然=1)。

所以对于仅有A,B两个结局的随机事件,如果A事件出现概率为p,B事件的出现概率为1-p,那么在n次随机实验中A事件出现n-m 次B事件出现m次的情况(对应一种复合事件)的出现概率P应当是(这里的P是大写的)

P=[n!/m!(n-m)!][pn-m(1-p)m]

注意到上面公式的对称性,它也可以写为

P=[n!/m!(n-m)!][pm(1-p)n-m]

它就是所谓二项分布概型的随机事件的出现概率公式,也是牛顿二项式展开在变量为对应概率值的情况下的通项。它就是本章公式(11.3)的由来。

另外,当p=0.5时,显然[pm(1-p)n-m]总是等于1/(2)n,注意到[p+(1-p)]n=1,所以二项式公式展开的n+1项的各个系数的合计值应当等于2n。即



上式中并没有p,所以这个系数和公式与p的具体数值无关。一般概率图书中对二项分布多有介绍。

多项分布

把二项分布公式再推广,就得到了多项分布(在一般概率书中很少介绍它,但是热力学中涉及到它)。

某随机实验如果有k个可能结局A1,A2,…,Ak,它们的概率分布分别是p1,p2,…,pk,那么在N次采样的总结果中,A1出现n1次,A2出现n2次,…,Ak出现nk次的这种事件的出现概率P有下面公式:



这就是多项分布的概率公式。把它称为多项式分布显然是因为它是一种特殊的多项式展开式的通项。

我们知道,在代数学里当k个变量的和的N次方的展开式 (p1+ p2+…+ pk )N是一个多项式,其一般项就是前面的公式给出的值。如果这k 个变量恰好是可能有的各种结局的出现概率,那么,由于这些概率的合计值对应一个必然事件的概率。而必然事件的概率等于1,于是上面的多项式就变成了

(p1+ p2+…+ pk )N =1N=1

即此时多项式的值等于1。

因为(p1+ p2+…+ pk )N的值等于1。我们也就认为它代表了一个必然事件进行了N 次抽样的概率(=1,必然事件)。而当把这个多项式可以展开成很多项时,这些项的合计值等于1提示我们这些项是一些互不相容的事件(N次抽样得到的)的对应概率。即多项式展开式的每一项都是一个特殊的事件的出现概率。于是我们把展开式的通项作为A1出现n1次,A2出现n2次,…,Ak出现nk次的这种事件的出现概率。这样就得到了前面的公式。

如果各个单独事件的出现概率p1,p2,…,pk都相等,即p1=p2=…=pk=p(注意这里是小写的p),

注意到p1+p2+…+pk =1,就得到p1= p2 =…=pk =p=1/k 。

把这个值代入多项式的展开式,就使展开式的各个项的合计值满足下式:

∑[ N!/(n1!n2!…nk!)](1/k)N=1

即∑[ N!/(n1!n2!…nk!)]=kN

以上求和中遍及各个ni的一切可能取的正整数值,但是要求各个ni的合计值等于N 。   即

n1+n2+…nk=N

在热力学讨论物质微观状态的可能个数时,经常用另外的思路引出N!/(n1!n2!…nk!)式。并且称它为热力学几率。它是一个比天文数字还大很多的数,把它称为几率(概率)并不妥当。但是热力学里由于各个微观状态的出现概率相等,这对应我们在前面讨论的p1= p2 =…=pk =p=1/k,于是

[N!/(n1!n2!…nk!)](1/kN)

就真正具有数学上的概率的含义。换句话说,物理学里的热力学几率[N!/(n1!n2!…nk!)]乘上(1/kN)以后就是数学中定义的(具有归一性)的概率了。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-12-19 12:19:43
如t分布、F分布、分布都是在正态分布的基础上推导出来的,u检验也是以正态分布为基础的。此外,t分布、二项分布、Poisson分布的极限为正态分布,在一定条件下,可以按正态分布原理来处理。  







二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-12-19 12:22:41
二项分布
  二项分布是最重要的离散概率分布之一,由瑞士数学家雅各布·伯努利(Jokab Bernoulli)所发展,一般用二项分布来计算概率的前提是,每次抽出样品后再放回去,并且只能有两种试验结果,比如黑球或红球,正品或次品等。二项分布指出,随机一次试验出现的概率如果为p,那么在n次试验中出现k次的概率为:

  

  例如,在掷3次骰子中,不出现6点的概率是:
在连续两次的轮盘游戏中,至少出现一次红色的概率为:



  二项分布在p = 0.5时表现出图像的对称性,而在p取其它值时是非对称的。另外二项分布的期望值,以及方差

[编辑]正态分布和二项分布
  在离散分布中如果试验次数n值非常大,而且单次试验的概率p值又不是很小的情况下,正态分布可以用来近似的代替二项分布。一个粗略的使用正态分布的近似规则是:。
从二项分布中获得μ和σ值的方法是

  期望值

  标准差

  如果σ > 3,则必须采用下面的近似修正方法:

  

  注:q = 1 − p,EF:二项分布,ZF:正态分布)

  上(下)临界值分别增加(减少)修正值0.5的目的是在σ值很大时获得更精确的近似值,只有σ很小时,修正值0.5可以不被考虑。

  例如,随机试验为连续64次掷硬币,获得的国徽数位于32和42之间的概率是多少?用正态分布计算如下,

  

  

  ,符合近似规则,应用z-变换:

  

  



  在运用z表格时注意到利用密度函数的对称性来求出z为负值时的区域面积。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-12-19 22:55:47
科普啊
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-12-23 23:23:54
大师坑 发表于 2012-12-19 12:19
如t分布、F分布、分布都是在正态分布的基础上推导出来的,u检验也是以正态分布为基础的。此外,t分布、二项 ...
非常感谢您的热心回复,我知道您所说的这些!只是不知道为什么人卫第七版《卫生统计学》上二项分布和poisson分布资料的Z检验,求得z值后不查标准正态分布表而是查t界值表~~~~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群