是的,需要设置为虚拟变量. 不然其结果无法解释. 比如, 结果变量为是否发生肺癌, 假定为多个自变量的回归模型, 其中一个自变量为民族(汉族,回族,朝鲜族, 等),其赋值为1, 2, 3, 4, 等. 若设置为虚拟变量(选择汉族为对照组), 其流行病学意义可以解释为, 回族和汉族相比废癌的发生增加/或减少多少倍, 朝鲜族和汉族相比肺癌的发生增加/减少多少倍, 等.
设置为虚拟变量和不设置为虚拟变量最大的不同是: 前者估计出多个回归系数和OR值,而后者只有一个. 我建议,对于多个分类变量要虚拟变量. 当然,如果是有列的多分类(比如学生的年级, 或年龄组等), 也可以不设置虚拟变量. 但其意义解释不全面.
高兴的是,现在的软件, 包括SPSS, SAS 等, 都有选择项,可以很容易在配合logistic回归模型时设置虚拟变量,得到其参数估计值.
希望以上的解释对你有帮助.