全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
8446 3
2019-10-16
书上说按虚拟变量处理,设置一个类别作为参照组,有几个类别,就有n-1个虚拟变量,但我看好多文献中控制变量每个变量只有一栏,变量的类别并没有列出来,如年龄就只有年龄,并没有各个年龄段的数据 图片1.png

比如这张图,年龄和教育程度只有一栏,并没有列出年龄、教育程度的分类,那它这个值是怎么得出来的呢?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2019-10-17 09:56:02
教育程度也许是按有序变量处理的(纯属猜测),年龄是连续变量,性别只有两类。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-10-17 14:10:39
提示: 作者被禁止或删除 内容自动屏蔽
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-12-19 15:01:50
题主所提到的变量中,性别可以处理成虚拟变量,教育程度可以作为有序变量,年龄可以作为连续变量;由于性别在这里是一个二分类自变量,处理虚拟变量时,不需要再进行n-1的操作;n-1的操作,适合多分类自变量。
一个比较典型的多分类变量,可以以职业为例,比如存在教师、工程师、医生共3个取值。在此基础上,我们可以举例一个数据如下:有收入、工龄和职业共三个变量,以收入为因变量,以工龄和职业为自变量。首先,要把职业处理成取值数量-1个虚拟变量,此例即为2个虚拟变量,假设为教师、工程师这两个虚拟变量。搭建多元回归模型为“收入=常量+系数1*工龄+系数2*教师+系数3*工程师”。可以看到,该模型中,没有医生,是因为医生被作为基准类别或参考类别。
得到系数2和系数3后,可以解读为“当控制住其他变量的影响时,教师的收入比医生的收入多系数2,工程师的收入比医生的收入多系数3”。
如果想比较教师的收入与工程师的收入,可以把工程师设置为基准类别或参考类别,搭建新的多元回归模型为“收入=常量+系数1*工龄+系数2*教师+系数3*医生”,就可以比较教师的收入与工程师的收入。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群