https://www.statalist.org/forums ... s-failure-perfectly
参考该帖子二楼的回复
机翻译文:
当您的样本较小时,这种情况并不少见,就像这里一样。您只有 2 个观测值 edu_2 = 1,因此,假设总体基本概率分布为 50/50,则这两个观测值仅凭偶然机会同时具有两个结果 = 0 的概率为 1/4。因此,您的数据集根本没有足够的信息来合理估计 edu2 = 1 对此结果的影响。(即使结果显示其中一个结果是 0,另一个结果是 1,这仍然不是很多信息,你的 1.edu 系数,无论它可能是什么,确实会有一个非常宽的置信区间。
有 9 个预测因子和 68 个案例,您在这里真的如履薄冰。即使是最宽容的统计学家也会认为这个样本量对于那么多预测因子来说太小了。
这里的底线是,您试图从数据中榨取比它所提供的更多的信息。您显示的结果与此非常一致:查看两个bmi_change_cat水平的比值比置信区间有多宽:您的数据几乎没有告诉您有关这些预测变量的任何信息。只是,有了 edu_2情况是如此极端,以至于它甚至无法做那么多事情。
此问题的
最佳解决方案是获取更多数据。如果这不可行,只需按照我之前提到的 edu_2 = 1(始终为 0 结果)单独解释您的模型。如果这不令人满意(比如因为 edu_2 = 1 的组的估计是您研究的主要目标),您
可以尝试使用 Joseph Coveney 的 -firthlogit-(可从 SSC 获得)拟合 logistic 模型,该模型使用惩罚最大似然估计 Logistic 模型,并且可以获得此类情况的有限系数。(但是,请做好准备,围绕该估计的 CI 将非常广泛。-exlogistic- 是另一种可能性,它是专门为处理非常小的数据集而设计的。它运行得非常慢,因为它的计算量非常大,并且还使用了大量内存。但是,如果您的计算机有能力处理它,它会给您答案。但同样,它不会从石头中抽血:你会得到非常不精确的答案。