举个例子:商店搞促销抽奖活动,一个盒子里边有100个球,其中有10个黑球,顾客一次从中抽5个球,抽到5个黑球是特等奖,抽到4个黑球是一等奖,抽到3个黑球是二等奖,抽到2个黑球是三等奖,抽到1个或者没抽到黑球是不中奖。
如果你要计算的是顾客抽中二等奖的概率的话,那么就要计算抽中3个球的离散概率,对应到R语言中,就是计算dhyper(3,10,100,5)的值。
但是如果你要计算的是顾客中奖的概率,此时要计算的就应该是累计概率,要分别计算抽中5、4、3、2个黑球的概率并进行加和,也就是说计算最少抽中2个黑球的概率,此时对应到R语言中,就是计算phyper(1,10,100,5)的值。
不知道题者是要应用到哪门学科上,不同学科的应用情况不同,超几何应用到上述例子中比较容易理解为什么使用累计分布,但是往往应用到实际问题时候又会变得很绕了,我是学生物信息的,本着分享的态度,简单说一下我理解的超几何分布的累计概率应用到生物信息学中的情况。
应用到生物信息学中,超几何分布最常用的应该就是基于ORA方法的通路富集分析了。
同样举个例子:假设所有通路基因数目是20000个,某条通路(通路A)所包含的基因数目是1000个,正常样本与疾病患者之间的DEgene数目是500个,其中有200个DEgene在通路A中出现了。此时计算相对正常样本,通路A在疾病样本中是否存在显著差异。
在完全随机的理论情况下,从20000个基因中随机抽取500个,其中有200个落在通路A中的概率P200=dhyper(200,1000,19000,500),这是一个离散型的p值,它代表的仅仅是抽取500个Degene中有200个落在了通路A的概率,不能因为P200<0.05具有统计学显著性了,就证明通路A显著差异了。因为离散型的p值计算的是每个点发生的概率,这么说可能不太好理解,我直接放图了。如下图
这是0到500之间每个点下的p值,我们把它拉大到0-50之间每个点下的P值
很明显,超几何分布的离散值是一个类似正态分布的(这里只是说图形部分相似,正态分布没有详细了解不敢妄言)分布模型。P值是先上升,到达峰值后下降的一个趋势。经计算当当x=26时p-value最大为0.08169。
而当x=19时,p-value却为0.04038,是<0.05的,那么能说明通路A中有19个Degene的时候,通路A在正常样本和疾病样本呈现显著差异,而通路A中Degene上升到26个时,通路A在两类样本之间反而没有显著差异了么?
我们再举个极端的例子,通路基因有20w个,通路A中有1w个基因,差异表达基因有5000个,在这种情况下,通路A中从0到5000个Degene的概率中最大为0.026208,这个值<0.05,意思是每个频数下的概率都具有统计学显著性,那能说明无论通路A中有多少个差异表达基因,它在两类样本中均出现了显著差异么?显然这么说是不合理的
上面以通路和基因为例可能过于晦涩,不好理解,为了说明累积概率分布的意义,这里我们还是以商家抽球中奖为例,但是我们这次球的数目变了,盒子里有20w个球,其中有1w个黑球, 顾客不放回的从中抽5000个球,抽到m个黑球就算中奖。商家肯定是不希望顾客中奖的,商家就想着,这个m设置为多少,中奖才是个小概率事件呢?他想到了统计学,超几何分布。他算了一下抽到5000个黑球的概率,嗯,挺低的,小概率,抽5000个球可以算中奖;抽4999个黑球,概率也很低,也可以算是中奖;他一直算到抽中0个黑球的概率,最后傻眼了,发现顾客抽0到5000个黑球,每个概率都很低。老板说,我总不能顾客随便抽我都算他中奖吧。他继续思考,欸,盒子里黑球少,顾客想抽到5000个黑球的概率p_5000是最小的,抽中5000个黑球的人一定中奖了。抽到4999个黑球的概率p_4999也很小,嗯4999个黑球也算中奖。老板算了一下,目前中奖的概率是p_5000+p_4999<0.05,嗯,是个小概率事件,统计学上认为不可能发生,那我继续加吧。他就继续加,直到算到第255个球,中奖的概率p>0.05了,他一拍大腿,诶呀,这可不行,这中奖概率没有统计学显著性了,统计学上认为可能发生!这怎么行!定下来了,至少抽中256个黑球,都算中奖,因为顾客抽到256个球到5000个球加一起的概率才不到0.05,这在统计学上不可能发生!老板小黑板上写,抽奖,20w个球,1w个黑球,连续抽5000次,至少抽到256个黑球,我都算你中奖了!
同理,我们再回到通路富集分析。学生物信息的都知道,通路是受基因表达调控的,一条通路中差异表达基因富集的数目越多,这条通路整体的表达紊乱的可能性就越大。那么至少一条通路中富集多少个差异表达基因,这条通路才算中奖了,才能表明这条通路出现了显著的紊乱呢?这里我们就要用累计概率分布,这条通路从富集m个Degene开始就算出现了显著差异,到富集总数n个Degene的概率之和为p,这个p值的阈值为0.05,在这个阈值下,我们认为通路至少富集m个Degene的概率很小,是个小概率事件,随机条件下不会发生。如果通路中富集的Degene数目<m个,我们认为随即情况下是可能发生的,而如果富集的Degene数目≥m了,说明此时p已经<0.05了,随机条件下不会发生,如果发生了,就说明这是一个非随机的结果。通路中富集到这么多Degene不是一个随机事件,这条通路的功能肯定是发生改变了。
总结一下就是,离散概率只能表示通路中富集到m个DEgene的概率,这个p值<0.05了,只能表示通路中出现m个DEgene的概率很低。而累计概率表示的是在随机条件下,通路中至少富集m个DEgene的概率,这个概率p<0.05是个小概率事件,认为随机条件下通路中不会富集m以上个DEgene,如果通路中出现了m个以上的DEgene,那么这条通路的功能就会出现紊乱了。
我是学生物信息的,所以在生物信息方面就多谈了一些我的理解,希望能帮到题主,如果有看官发现了我逻辑上的纰漏,还希望能帮我指出,谢谢。