在进行probit回归分析时,当你加入控制变量后观测值减少的情况通常是由于某些自变量(即你提到的控制变量)存在完全预测能力的问题。这通常发生在数据中某个类别或分组内的所有观测都属于同一结果类别的状况下。
例如,在你的案例中,“2013.year”这个变量,当其不等于0时,完美地预测了“failure”。这意味着在“2013.year != 0”的所有观察中,没有发生成功的事件(或者相反,取决于你定义的失败和成功)。类似地,“4.industry1”,“5.industry1”,“10.industry1”以及“17.industry1”变量也存在同样的问题。
这种完全预测能力的问题在统计学上被称为“完美分割”或“分离”。当模型能够基于单个自变量的值精确预测结果时,它会导致回归系数估计的数值不稳定,甚至无法计算(因为涉及到除以零的情况)。
为了解决这个问题,你可以考虑以下几种方法:
1. **删除问题变量**:如果这些变量在理论上并不至关重要于你的研究目的,可以直接从模型中移除它们。
2. **合并类别**:对于分类变量,可以尝试将具有完全预测能力的类别与其他类别合并以减少这种现象。
3. **使用Firth逻辑回归或贝叶斯方法**:这些都是处理完美分割问题的有效统计方法。Firth逻辑回归通过添加一个小惩罚项来解决分离的问题;而贝叶斯方法则通过对参数设置先验分布,从而在计算中引入不确定性,避免完全预测的情况。
4. **增加样本量**:如果可能的话,获取更多数据可以降低这种问题的发生概率。
5. **使用其他模型**:考虑使用如随机森林、支持向量机或神经网络等机器学习方法,它们通常对完美分割的处理更灵活。
在实际操作中,根据你的研究目的和可用数据的具体情况选择最合适的解决策略。
此文本由CAIE学术大模型生成,添加下方二维码,优先体验功能试用