1. 提出假设
:两个变量是独立的,即相互之间没有影响,
牐 :两个变量是不独立的,即相互之间有影响。
检验的结果如果接受原假设 牼退得鞑荒芡品两个变量是独立的假设;反之,拒绝 ,接受
2将观测数据分类,计算检验统计量 :
我们要将需要检验的变量分类,只作如下的表格:
变量B的分类
变量A的类别 1 2 ….. m 行总和
1 O11 O12 ….. O1m O1.
2 O21 O22 ….. O2m O2.
….. ….. ….. ….. …..
k Ok1 Ok2 ….. Okm Ok.
列总和 O.1 O.2 O.m n
这里,Oij表示具有第ij属性的观测的数量,i=1,2,..k,j=1,2,…m, Oi.表示第i行的观测书的总值,O.j表示第j列的观测数的总数。注意,这里Oij是实际观测到的数据分类得到的。我们在后面还要计算在原假设成立的是观测的理论数值。这里n是观测的总数。
定义 = ,这里 是上边分类得到的实际观测数, 是与之相应的位置上的期望值。 是根据概率计算的,在原假设下两个变量独立,因而有:
如果两事件独立,则它们的联合概率就等于它们分别概率的乘积,即落入第i j格的概率等于落入第i 行的概率与落入第j 列的概率的乘积。由此可得到当总的观察值的和为n 时,与观察值 相对应的期望值 可按下式计算得到。
= ( )( )=
牐犂用上面的公式可以计算出相应的个各个位置上的期望值。如果计算所得到的期望值过小,则最后得到的检验统计量 就会估计过大,导致原假设被拒绝的概率过高。因此,实际检验中一般要求所有计算得到的期望值都不小于5。如果某些位置上的期望值小于5就可以把相邻的类别合并,使得结果计算得到的期望值都不小于5。牐牐牐牐3计算 检验
我们在上边计算的 值,就是反映两个变量独立性程度的变量。如果 =0,那么这两个变量独立,当 不等于0, 越大两个变量独立的可能性越小,当 达到一定的程度时我们就可以拒绝两个变量独立的假设。
为了确定这个临界值,我们就需要使用 分布。首先我们需要确定 的自由度,由于在计算期望值的时候,每行总数和每列总数的总和是确定的,因此自由度是行数-1和列数-1的乘积。如果第一个分类变量有r类,第二个分类变量有c类,那么自由度就是:
,
这时,我们查自由度为 的 分布,和前面一样计算0.95得分位数,就得到显著性水平为5%的临界值 ,如果我们在第2布计算的 ,那么我们就要拒绝原假设,不能接受两个变量独立。
此外, 分布也可以用来检验数据是否服从某个分布,如正态分布,泊松分布,二项分布等。这时的检验也成为拟和优度检验。这种检验的方法也是先将变量分类,计算理论值和观测值,在计算统计量和自由度。具体的操作办法感兴趣的同学可以参看课本和课件。