Tobit 模型 和heckman样本选择模型, 二者所适用的数据类型大致相同, 即被解释变为连续型变量且存在大量等于零的观测值;而二者的区别在于对这些零观测值的解读和建模:前者认为这些零由于删失数据/自然形成, 对应于个体效用最大化模型的角点解, 后者则认为这些零值先于效用最大化过程而存在, 属于样本选择, 是某种自选择行为的结果,(写作当y大于潜在预期y*的时候y才为非0值) 因此零观测值和非零观测值所对应的总体应被视为存在系统性的差异。
跨栏模型/two part model 是tobit的延伸。两部门模型第一步是生成一个dummy,是否观测值大于0。然后对这个dummy做probit/logit回归。第二步是对 观测值大于零条件期望下的观测值做glm。(当然也可以是ols)注意,两部模型并不是heckman两部法,heckman把逆mills率放进第二步做整体回归,而两部模型就单纯的分两个部分进行分析(但我们能通过这两步估计出来的参数写出整体分布的似然函数,见医保文件夹论文)。两部模型的一个假设是影响y是否大于0的因素和影响y大小的因素相互独立。(这在tobit模型是做不到的,因为tobit把它们当作一个整体做回归)
tobit假设未被截堵的部分的分布服从正态分布。(扰动项正态分布)
参考文献:部分来自网络整理