全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
6782 8
2014-08-22
悬赏 100 个论坛币 已解决
各位老师和大侠:在做Logistic回归时,关于分类变量设定时,如果是数值类的分组变量,能否可以直接按连续变量进行回归,例如家庭年收入:2万以下=1,2~6万=2,6-10万=3,10万以上=4,然后把分组以后的取值1、2、3、4、5直接按连续变量放入回归,可以吗?如果想分析不同的收入组对因变量的影响,是否就有必要把家庭年收入按分类变量(虚拟变量)进行放入回归?两者有什么区别吗?谢盼!

最佳答案

xingxf 查看完整内容

你这里面家庭年收入是自变量是吧?如果是自变量,当然最好的的方法是把实际收入数值带入回归。如果只有这个1,2,3,4,5,那么把这个分组变量带入回归,也没问题,回归的结果也是体现随着收入的提高,对你的因变量有何影响。如果你要研究不同收入组对因变量的影响,那么可以为单独的收入组设置dummy variable,进行回归。这两种做法的区别,前者研究随收入变化对因变量的影响,后者是研究某一个具体收入组和因变量的关系。两种方法 ...
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-8-22 20:32:06
你这里面家庭年收入是自变量是吧?如果是自变量,当然最好的的方法是把实际收入数值带入回归。如果只有这个1,2,3,4,5,那么把这个分组变量带入回归,也没问题,回归的结果也是体现随着收入的提高,对你的因变量有何影响。如果你要研究不同收入组对因变量的影响,那么可以为单独的收入组设置dummy variable,进行回归。这两种做法的区别,前者研究随收入变化对因变量的影响,后者是研究某一个具体收入组和因变量的关系。两种方法所表达的含义是不同的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-9-7 15:10:13
基本同意楼上的看法,但是不能把1、2、3、4、5直接放进回归方程中,因为这些数字没有实际含义。正确的做法是取各收入组的平均值,如两万以下=1万,2~6万=4万,当然,这样做与放入虚拟变量的不同,正如楼上所言!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-9-18 14:17:10
非常感谢!谢谢大家!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-9-18 18:56:46
huyumei.hi 发表于 2014-9-7 15:10
基本同意楼上的看法,但是不能把1、2、3、4、5直接放进回归方程中,因为这些数字没有实际含义。正确的做法是 ...
不好意思,我觉得各取收入组的平均值是不可取的,这样得出的系数看似有意义,其实完全不准确。而且10万以上怎么算均值?没办法预计啊。把分组变量1,2,3,4,5直接带入回归是有意义的,回归结果体现的是随着收入提高,对dependent variable的影响。尽管这样回归系数不能体现量化的含义,但是性质是确定的。如果用均值,看似回归系数可以体现量化的意义,但是极为不准确,甚至会很误导。最好的办法还是用continuous variable,如果楼主数据只能提供categorial variable,那也是没办法的事。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-9-18 20:23:53
有道理!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群