参数估计与显著性检验所要处理的问题表面上看有点类似,它们都是在知道总体的分布形式但不知道其中的某些参数的条件下对未知参数作统计推断的方法,但是,在所要解决的问题以及所使用的方法上两者之间却有着本质的区别。
为了对它们之间的区别有一个直观的认识,我们先来讨论一个案例。
美国军队原来的导弹制导系统是雷达系统,其命中率为50%。后来他们又研制了红外线制导系统。为了确定新导弹制导系统的命中率,他们试射了18枚新导弹,结果有12枚击中。此时,如果试验的目的仅仅只是为了估计新导弹的命中率,那么这就是一个参数估计问题。根据试验的结果,运用最大似然法可以得到新导弹命中率p的估计值为2/3或者66.67%。
但是现在美国国防部需要考虑的问题的是,是否有必要更换制导系统,即将雷达制导系统更换为红外线制导系统?而这首先需要他们回答这么一个问题:根据这个试验结果,能否认为红外线制导系统的命中率比雷达制导系统的命中率要高?
设新导弹的命中率为p,则要回答上述问题,需对以下两个假设进行检验以决定该接受哪一个假设:
(1)原假设:p=50%,即新导弹没有提高命中率;
(2)备择假设:p>50% ,即新导弹提高了命中率。
前面提到,如果是参数估计问题,那么66.67%是p的一个最大似然估计值,它显然大于50%。因此,粗看起来,好像确实是提高了命中率。然而,由于更换制导系统(即拒绝原假设或接受备择假设)是一件非常昂贵的事情,因此当你在做最后决定的时候可能会有一些犹豫,毕竟即使是雷达制导的旧导弹系统,试射18枚导弹至少击中12枚的结果也是有可能会出现的。也就是说,即使没有提高命中率,上述试验结果也是很有可能“碰巧”发生的。这样一犹豫,红外制导系统是否提高了导弹的命中率的问题便好像不再是显然的了。
接下来的问题是,“试射18枚导弹至少击中12枚”这一结果是否与50%的命中率有“显著”的差异?
根据前面关于显著性检验的讨论,我们现在要做的是,首先假设新导弹没有提高命中率(即原假设为真),即仍然为50%,然后在此假设下检验所发生的事件是不是“有违常规”,即其发生的概率是否很小。
设X为试射的18枚导弹中击中目标的导弹数,则在原假设为真时,X 服从二项分布。现在我们需确定一个数k,当X>k时拒绝原假设同时接受备择假设。
经过简单的计算可知,如果取显著性水平(犯第一类错误的概率)为1%,则此时X 至少应为15;如果取显著性水平为5%,则此时X 至少应为14;如果我们将显著性水平的数值取得更大一些,即显著性水平要更低一些,比如取为10%,则此时X 至少应为13。因此,在显著性水平1%下根据击中的次数至少为12是不能拒绝原假设的。事实上,如果此时作出拒绝原假设的结论,那么犯错误的概率将达到12%左右。
由于犯第一类错误的概率超过了10%,因此试验的结果不能认为是一个小概率事件,用统计学的术语来说,试验的结果对于拒绝原假设来说是不显著的,即不能由此说明新导弹提高了命中率。为了谨慎起见,我们宁愿相信试验的结果是随机波动的结果(碰巧的结果),而不是由于导弹的性能有了显著的提高。虽然接受原假设有可能会犯错误,但问题并不是很严重,因为不更换制导系统并不比原来更差,命中率仍可维持在50%。否则一旦作出拒绝的判断,那么就将消耗巨大的人力物力来更换该系统,其结果却很有可能(概率至少为12%)并没有改善导弹性能。
如果想要得到更加精确的结论,那么只能继续试验以获得更多的样本数据。
这就是参数估计问题与显著性检验问题的不同之处。