大家好,有个问题想请教一下,关于logistic regression的:
一、大家都知道logitp=ln(p/1-p)=a+bX, 其中p是Y=1的概率,例如现在求出回归方程Y=a+bX1+cX2+dX3。具体变量情况如下:
X1是连续变量range(1-999),
X2是分类变量range(1,2),
X3是连续变量range(1-999),但是做了分段赋值处理(1=1-300,2=301-600,3=601-999)
现在我想把样本中其中一个案例的值代入方程当中求出该案例y=1的发生概率,我想请问以下计算是否正确?
若该案例的变量取值情况如下:
X1=543,
X2是1,
X3=445,因为做了分段处理,所以X3是2。
把上述取值代入方程Y=a+bX1+cX2+dX3,即ln(p/1-p)=Y=a+543b+1c+2d,然后计算出p值,即方案Y=1的概率。
请问上述计算过程是否正确?
换句话问这个问题,就是分类自变量是否直接把其编码代入到方程中?做了分段处理的连续变量是否也是把其分段编码代入方程中?
谢谢大家!!!