我也不熟练,我们老师讲的是下面情况:
如果计数数据中含有大量的“0”值(zero outcome),则可以考虑使用“零膨胀泊松回
归”(Zero-Inflated Poisson regression,简记ZIP)或“零膨胀负二项回归”(zero-inflated negative
binomial regression)。从理论上来说,决策可能是分两阶段进行的。首先,决定“取零”(无)
或“取正整数”(有),这相当于二值选择。其次,如果决定“取正整数”,则进一步确定具
体选择哪个正整数。
为此,假定被解释变量yi 服从以下“混合分布”(mixed distribution),
P(yi=0/xi)=θ
P(yi=j/xi)=(1-θ)/(1-e-λ)后面再乘以波松分布的密度函数,其中-λ在幂的位置上
θ>0与β是待估参数。因此,这是一个离散随机变量的分布律。进一步,可以让θ 依赖于解释变量z i ( zi
可以等于x i ,或与x i 有重叠部分),并用Logit 模型来估计此二值选择问题,即 yi =0 或
y i >0 。使用MLE 估计以上模型,即得到“零膨胀泊松回归”。类似地,可以定义“零膨
胀负二项回归”。
究竟应该使用“标准泊松回归”(standard Poisson)还是“零膨胀泊松回归”(ZIP)?
Stata 提供了一个Vuong 统计量(Vuong, 1989),其渐近分布为标准正态。如果Vuong 统计量
很大,则应选择“零膨胀泊松回归”(或“零膨胀负二项回归”);反之,如果Vuong 统计量
很小(为负数),则应选择“标准泊松回归”(或“标准负二项回归”)。