概率统计中的假设检验方法&统计量分布

3636

收藏 2014-08-05

要假设检验做什么？

我曾经问了Nielsen的一分析经理一个很愚蠢的问题“怎么评价你们的工作的好坏？”
他回答“自己对模型的Testing和客户直接反馈”。

现在我这么想，不管在别人的大脑中进行了哪些过程，你不能展开别人的大脑去
看一看的，不像电脑，人最多也就展开自己的大脑看一看，况且，人对于自己很
多时候都会判断不准的，如果想得到很严谨可靠的判断，就非要做假设检验不可。

但是我们知道在一个严格的数学问题里面“是或者不是什么”不一定是我们真正面
临的问题，真正的问题有可能是What That Depends On，而不是简单的yes和no，
所以，假设检验也只能作为，我们发现最终问题的一个环节，问题会被发掘到什
么程度取决于目标以及自己的分析所在位置的认知。

正因为上面的缘故，概率统计里面有相应的显著性检验的概念，不是一概而论地判断为第一类错误，第二类错误。

现在就从我自己浅薄的认识，概率统计中的假设检验是为重新定义问题提供可靠的方向。

--------------------------------------------------------------------------------------------------------------------------------------------------------
假设检验的类型

我可能最想问的是，我得到的这个概率分布对不对？可是为什么我会对我得到的概率分布有疑问？第二个问题的回答可能需
要观看我得到这个概率分布的过程，用的方法是不是严格等等。

对于一个概率分布。可以检验一下主要的几个数字特征，期望，标准差，前面我们已经比较详尽地探讨过它们的意义，如果
数字特征的检验都是不能通过的，那么我们的概率分布必然有问题。当然前提是，我们的检验过程没有失误。
如果数字特征是通过的，我们可以关注能提供更多信息的分布函数。

对于两个概率分布之间的关系。每一种检验方法对应有检验分布。感觉这个任务十分艰巨。做完了泊松过程相关联的那些分
布，我立马想到怎么发现它在现实中的意义，怎么将过去的知识和面临的问题进行链接，怎么样产生属于自己的东西。可能
软件工具、各种可利用资源就是放在它们之间的桥梁了，接下去看清楚牛，看清楚刀，熟悉刀的属性，我们就能成为一个有
行动能力的人了。前面我们试出了一点刀口的锋利。我们面临的事情总是有刀找牛，有牛找刀。牛和刀什么时候能够相遇？
我们就是杀牛的屠夫，听起来不太酷。

（1）u 检验法
（2）t 检验法
（3）卡方检验法
（4）F 检验法
（5）皮尔逊卡方检验
（6）列联表检验法

而且，我们现在做的事情，感觉很玄，就像是真正的绝世武功，总是带有某种荒谬的色彩，需要裸体修炼的，需要自宫的，
需要是玉女的，需要存在一种内蕴的确定性消除这种玄虚感。
--------------------------------------------------------------------------------------------------------------------------------------------------------
我们从u检验开始还得从正态分布开始

最不能让人理解的是，做检验之前做的假设，随机变量\xi服从某种我们熟悉的分布。比如标准化的生产过程，我们希望生产
出规格一致的产品。假设了随机变量服从正态分布。对于标准化生产过程形成这样的结果，我们可以理解，但是自然中的东
西很多也都服从这种现象，自然界是想要达到某种目的吗？在达到目标的过程中，出现了额外的偏差，导致了分布。这样的
解释不能令人信服，书上的定义直接是写出密度函数和分布函数，肯定的，我们揣测它被发现的思路是长而复杂的。当我们
弄明白概率论基本的那些大数定理，对于正态分布的理解才会更深一步。

系统性误差

我弟曾给我讲过个故事，说学校复核学生学科学期成绩时候，还看它们是不是符合正态分布。是在检查里面有没有系统系的误差吗？

老师的，还有，学生的。做正态的检验就能检验出系统误差？拭目以待。

系统性的误差其实好像更普遍，人员冗杂，手忙脚乱，搭出来的系统漏洞多处，再说审核系统，多一道审核，多需要一些时间
人员误差再多一层。可以这样考虑问题，我们假设一个n步骤的过程，每个步骤有出错的可能性p_k,k=1,2,...,n，整个过程无误
的概率是\[\prod_{k=1}^{n} (1-p_k)\],
也就是说每加一道审核，整个系统无误的可能性，不管怎么着都是降低的。这启示我们对于一个多步骤的过程，我们的设计应该是使得步骤越少越好。但是，其实是什么，大部分人直观的想象是多到程序总会增加正确的可能，他们那么想当然的无知。我这里的推理没漏洞吧。当然这里是有前提假设就是这个系统是不容错。不向一个分布式系统，Paxos允许了系统个别的误差。所以这给我的启示是，对于必须有很多人员参与决策的系统就可以设计成这样一个系统，不过，通过条件可能会不一样，Paxos中通过的条件是大多数通过提请，涉及各种比不可少的部门参与时可以将条件更改为只有一个部门有一个或者几个或者大多数这样的条件，依然是两阶段提交，这样的系统设计好，对于使用者完全是友好的，因为系统的反馈符合他们认知的逻辑。同时，这给我们的启示是问题总是没有错的。NB

u检验