Y为二分类因变量,salary为有序变量,其它变量均为分类变量,其中work_province有280多个分类,其余变量分为2~9类。Y中的0,1的比例为15:1。样本数量为30000多个。
采用向前LR的方法进行操作,
当迭代次数为20时,部分结果如下,
其中-2LL明显过大,Cox & Snell R 平方 Nagelkerke R 平方过小,且显示迭代次数上限,预测结果也全为0。
如果增加迭代次数,则显示
显然也不正确。
不考虑work_province这个变量,结果也大致如此。
请问是样本比例问题还是自变量需要进一步的处理,亦或是别的问题?