全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 EViews专版
7551 4
2014-04-04
       假设检验是个老生常谈的问题,几乎任何一本统计教材都会提及这一问题。多数教材的介绍主要包括四步:(1)建立假设;(2)建立检验水准;(3)计算统计量;(4)确定P值。当然这也没什么问题,但在统计学中,这部分总感觉介绍的太浅,即使明白了这4步,可能也不知道为什么这么来做,只是知道我们就按这4步来做。因此有必要再次谈一下,当然,仅是个人想法或观点,如有不当之处,欢迎各位指正。


       对假设检验做出重大贡献的主要是奈曼和E皮尔逊,当然还有Fisher的一些前期贡献,但主要框架是由奈曼和E皮尔逊构造的,即使到现在,我们的书中仍是沿用奈曼-皮尔逊范式。


       假设检验,顾名思义,就是对“假设”进行“检验”,以证明我们做的“假设”到底对不对。其实现实中我们每天都需要做假设,比如今天你出门没有带伞,为什么没有带?因为你已经不自觉的做出假定“今天不会下雨”,只不过你自己都没有意识到而已,其实你已经做了一次假设检验了。如果一直到你晚上回家都没下雨,说明你的假设是正确的,否则你的假设就是错误的。在科研中,我们所做的假设可能不像下不下雨这么直观,我们面对的可能是一堆纷繁杂乱的数据,利用这些数据对做出的假设进行验证,这也就是我们在统计中的假设检验。

       为什么要做假设?这是个显而易见的道理,无论做什么,只要想做出一个结论,那一定会有一个假设,只不过有的你自己都意识不到而已。简单到你日常买衣服,要下结论买不买,那就需要假设这个衣服适不适合你,但这些思路可能在我们脑中都是一闪而过,不像书本中写的这么有逻辑或这么麻烦。


       如何做假设?通常我们做的假设是从正面做出的假定(一般给它起个名字叫零假设或无效假设或原假设),然后想办法从背后攻击它(一般也叫备择假设),看它能不能经受这种背后攻击,有的书中称之为“被攻击的稻草人”。如果能经受住,说明做出的假设没错,如果承受不了,那就只能说假设有误,我们不能承认这一假设。比如,你想知道两种药物的疗效是不是一样的,那就事先假定“两种药物疗效相等”(无效假设),然后进行攻击。如果你想知道男性和女性的工资是否不同,那就假定“男性和女性工资相等”(无效假设),然后对其攻击。总之,无效假设是我们打算攻击的对象,而它的对立面备择假设才是我们想要的达到的目的。


       如何来证明假设?假设的证明有好几种方法,最常用的(也是绝大多数统计教材所介绍的)的是经典统计方法,这种方法计算一个检验统计量,据此来判断假设是否正确。也就是说,根据我们事先做出的假定,利用收集到的数据计算一个统计量。直观地说,这个统计量反映了距离我们所做的假设有多远,离得越远,越说明假设不可靠,离得越近,说明假设越可靠。

       了解这个公式,就要先知道什么是似然(likelihood)。所谓似然,就是在假定关于数据的模型正确的条件下,重现这些数据的概率。最大似然也就是这一概率最大。比如,如果参数等于一个值a,那么观测数据在参数在等于a的时候,要比等于任何其它值的时候出现的可能性更大。这时候我们理所当然认为参数等于a是最好的一个估计结果。


       这个公式就是看到底结果偏向于哪个参数更好一些。在不同的情况下,这一公式可以简化为相应的我们熟悉的公式,比如对于近似正态的抽样分布,要检验θ=θ0,θ的估计量θ1服从均值为θ、标准差为可σθ1的正态抽样分布,公式可以简化为Z=(θ1-θ0)/σθ1,这实际上就是一个单样本的t检验,此时这里的θ1相当于估计的均值。


       除了经典的统计量之外,还有一些其它很有效的方法,实际中也很常用,如bootstrap法、贝叶斯法,都是最近比较火的检验假设的方法。Bootstrap法是一种重复抽样的方法,利用原始数据从中重复抽取样本量为n的多次样本,然后计算统计量和相应的p值。这种方法与经典的统计量结果很相似,当经典方法不满足某些条件时,用bootstrap法却仍可以得到较好的估计。贝叶斯法这几年又有抬头的趋势,以往的几十年间经典统计一直占据上风,而最近几年贝叶斯法则发展较快。该法是利用后验分布求无效假设或备择假设发生的可能性,接受最大可能发生的那种假设。


       如何根据统计量做出判断呢?我们前面提到,统计量反映了距离假设(确切地说是无效假设)有多远,那么远到什么程度才算认为无效假设不对呢?这就需要有个标准,我们设定一个距离标准,一旦超出这个距离,我们就可以说,事先设定的无效假设是错误的;如果没有超出这一距离,那我们就只能说,无效假设可能是正确的。


       由于不同的数据用的是不同的统计量,因此很难找到一个统一的统计量标准,但如果把统计量转化为其它一个统一的指标,那就可以进行统一比较了。P值就是起到这样一个作用。当年Fisher先生在他的显著性检验中,提出了P值的概念,认为P值小的情况下,可以认为差异是有显著性的。但他并未提出一个小到什么程度的标准,也没有将其用在“拒绝”的假设框架下。后来奈曼和E皮尔逊的探讨中逐渐形成了一套一直到现在我们还在应用的假设检验体系,事实上,包括我们提到的无效假设、备择假设、I类错误、II类错误等这些名词都是奈曼和E皮尔逊提出的。


       为什么我们可以用P值来作为我们下结论的标准?P值可以看作是一种决策风险,它是反对无效假设的一个概率,这一概率越小,说明无效假设越不可能是真的。P值不是孤立的,它是跟特定分布相联系的,根据不同的数据的统计量,可以推出相应的P值。比如正态分布,当Z大于1.96,P值就小于0.05。这些都是前人们已经为我们提供了现成的结论,我们直接拿来用就好了,前人统计学家已经从各种分布中找到了统计量与P值的联系,当然,如果想了解,看一下这些分布图,也很容易发现他们之间的规律。如果你懒得看这些,只想捡现成的结果,当然也可以。因为统计软件的发展已经可以很轻松地输出统计量和相应的P值,而且可以给出非常精确的P值,我们只要把统计量和P值摆出来就好了。


       以上是假设检验的大致的思路,但如果具体到真正的数据分析上,其实并没有这么复杂。比如你要比较两种药物的疗效是否相同。当你拿到数据的时候,你会先在纸上写上“无效假设是两种药物疗效相等”吗?我想你可能不会。所以说,假设检验是帮助理解的,一旦理解了,他就没什么用了。我们真正做数据分析的时候,就是根据研究目的、数据类型等,来判断采用什么方法,至于统计量和P值的计算,那都是计算机的事儿,你也可以放手。看起来,好像我们书中所提到的假设检验的四步我们都用不上了。所以有时候初学者可能会迷惑:我们学这些到底是干什么呢?我想这个就像是培养逻辑思维一样,如果你没有这种思维,你就只其然,而不知其所以然。书本上的介绍有时候是很孤立的,比如医学统计学中,假设检验通常和t检验放在一起介绍,让人觉得好像假设检验就是为t检验做准备的。所以我们需要将各种方法融会贯通,返璞归真地重新来审视一些基本概念和过程,有时候可能会有一些意外收获。



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-4-4 11:50:00
胖胖小龟宝 发表于 2014-4-4 11:17
假设检验是个老生常谈的问题,几乎任何一本统计教材都会提及这一问题。多数教材的介绍主要包括四步: ...
太好了,通俗易懂啊!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-4-4 23:59:05
胖胖小龟宝 发表于 2014-4-4 11:17
假设检验是个老生常谈的问题,几乎任何一本统计教材都会提及这一问题。多数教材的介绍主要包括四步: ...
好帖子
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-4-10 19:50:09
好久没看到楼主了,支持普及贴~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-4-29 14:07:24
赞一个
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群