全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
3368 1
2017-12-10
用probit做回归分析,在加入控制变量,发现观测变量减少!
之后发现stata报出
17.industry1 != 0 predicts failure perfectly
      17.industry1 dropped and 2 obs not used
note: 19.industry1 != 0 predicts failure perfectly
      19.industry1 dropped and 1 obs not used
note: 22.industry1 != 0 predicts failure perfectly
      22.industry1 dropped and 1 obs not used
note: 24.industry1 != 0 predicts failure perfectly
      24.industry1 dropped and 1 obs not used
note: 26.industry1 != 0 predicts failure perfectly
      26.industry1 dropped and 6 obs not used
note: 30.industry1 != 0 predicts failure perfectly
      30.industry1 dropped and 4 obs not used
note: 33.industry1 != 0 predicts failure perfectly
      33.industry1 dropped and 7 obs not used
note: 35.industry1 != 0 predicts success perfectly
      35.industry1 dropped and 1 obs not used

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2024-11-17 20:23:15
https://www.statalist.org/forums ... s-failure-perfectly
参考该帖子二楼的回复
机翻译文:
当您的样本较小时,这种情况并不少见,就像这里一样。您只有 2 个观测值 edu_2 = 1,因此,假设总体基本概率分布为 50/50,则这两个观测值仅凭偶然机会同时具有两个结果 = 0 的概率为 1/4。因此,您的数据集根本没有足够的信息来合理估计 edu2 = 1 对此结果的影响。(即使结果显示其中一个结果是 0,另一个结果是 1,这仍然不是很多信息,你的 1.edu 系数,无论它可能是什么,确实会有一个非常宽的置信区间。

有 9 个预测因子和 68 个案例,您在这里真的如履薄冰。即使是最宽容的统计学家也会认为这个样本量对于那么多预测因子来说太小了。

这里的底线是,您试图从数据中榨取比它所提供的更多的信息。您显示的结果与此非常一致:查看两个bmi_change_cat水平的比值比置信区间有多宽:您的数据几乎没有告诉您有关这些预测变量的任何信息。只是,有了 edu_2情况是如此极端,以至于它甚至无法做那么多事情。

此问题的最佳解决方案是获取更多数据。如果这不可行,只需按照我之前提到的 edu_2 = 1(始终为 0 结果)单独解释您的模型。如果这不令人满意(比如因为 edu_2 = 1 的组的估计是您研究的主要目标),您可以尝试使用 Joseph Coveney 的 -firthlogit-(可从 SSC 获得)拟合 logistic 模型,该模型使用惩罚最大似然估计 Logistic 模型,并且可以获得此类情况的有限系数。(但是,请做好准备,围绕该估计的 CI 将非常广泛。-exlogistic- 是另一种可能性,它是专门为处理非常小的数据集而设计的。它运行得非常慢,因为它的计算量非常大,并且还使用了大量内存。但是,如果您的计算机有能力处理它,它会给您答案。但同样,它不会从石头中抽血:你会得到非常不精确的答案。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群