huyumei.hi 发表于 2014-9-7 15:10 
基本同意楼上的看法,但是不能把1、2、3、4、5直接放进回归方程中,因为这些数字没有实际含义。正确的做法是 ...
不好意思,我觉得各取收入组的平均值是不可取的,这样得出的系数看似有意义,其实完全不准确。而且10万以上怎么算均值?没办法预计啊。把分组变量1,2,3,4,5直接带入回归是有意义的,回归结果体现的是随着收入提高,对dependent variable的影响。尽管这样回归系数不能体现量化的含义,但是性质是确定的。如果用均值,看似回归系数可以体现量化的意义,但是极为不准确,甚至会很误导。最好的办法还是用continuous variable,如果楼主数据只能提供categorial variable,那也是没办法的事。