sas菜鸟请教 高手 问题如下:
数据库很大 40万 左右 打算用logistic回归 dependent 变量 以设好 (0 1) 20多个independent变量
什么形式的都有 有连续型的 有categorical 型的(但是取值都在6个以上) 所以需要设计哑变量 请教各位哑变量设计的标准是什么?
举个例子 categorical 型变量 6个取值 a b c d e f ,先用频率统计 得到
0 1
a 10 15
b 6 4
c 5 5
d 20 30
e 8 9
f 1 2
问题是 怎样设计这个变量的哑变量 设计6个? 还是看他们的比值 比如a 和d ,b和c就可以放在一起设计?
连续型的变量怎样分类? 谢谢 不知道说明白了没有。