全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
1873 2
2009-07-22
sas菜鸟请教 高手  问题如下:
数据库很大 40万 左右  打算用logistic回归  dependent 变量 以设好 (0 1) 20多个independent变量
什么形式的都有 有连续型的 有categorical 型的(但是取值都在6个以上) 所以需要设计哑变量  请教各位哑变量设计的标准是什么?
举个例子  categorical 型变量 6个取值 a b c d e f ,先用频率统计 得到
  0 1
a 10 15
b 6 4
c 5 5
d 20 30
e 8 9
f 1 2
问题是 怎样设计这个变量的哑变量  设计6个? 还是看他们的比值 比如a 和d ,b和c就可以放在一起设计?
连续型的变量怎样分类? 谢谢  不知道说明白了没有。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2009-7-22 15:19:58
楼主可以只考虑之比较感兴趣某几个分类,不用全部使用吧
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-7-23 02:13:17
我也不知道选哪几个 可以 呵呵 看来没人能帮上我了
我在去找找书吧 谢谢楼上的了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群