,k分别是属于第k个细胞的观察到的和估计到的无观测概率。皮尔逊卡方检验统计量由kxk=1(mk)给出- nbpk)nbpk。上述统计数据的动机来自Kxk=1(mk- npk)npkha是具有k的极限卡方分布-1个自由度ifpk,k=1,Kare真实的细胞概率。现在假设只有由mk表示的汇总数据,k=1,Kis可用。此外,ifpk是参数的函数,用任何有效估计的概率替换GPK。BPK的统计结果继续具有限制性的卡方分布,但自由度由K给定-- s、 例如,可以通过使用最大似然法(具有多项式似然)或通过估计使皮尔逊卡方统计量最小化的参数来推导此类有效估计。例如,下面的代码确实计算了λ的估计值,并得出估计值0.06623153,接近但不同于使用完整数据的λ的最大似然估计值:m<-c(6996455,28,4,0);op<-m/总和(m);g<-函数(lam){sum((op-c(dpois(0:3,lam),1-ppois(3,lam)))^2)};optim(sum(op*(0:4)),g,method=“Brent”,lower=0,upper=10)$par52第2章。频率建模当使用完整数据估计概率时,渐近分布介于带参数的卡方分布之间-1和K-- s、 在实践中,忽视这一微妙之处很常见-- 在泊松分布的情况下,斜视良好。对于新加坡汽车数据,使用λ的全数据最大似然估计,皮尔逊卡方统计量等于41.98。使用卡方检验的极限分布与5--1=3个自由度,我们可以看到。98是最后一个(99%低于12)。