回归模型因子变量与连续变量交叉项的问题
在回归模型中引入因子变量与连续变量的交叉项,但发现连续变量的main effect不再显著,所以变为只考虑因子变量的main effect以及两者的interaction effects。查阅资料得知R中交叉项的引入可以用星号(*)也可以用冒号(:),但是后者前者自动包含了main effect 和 interaction effects,但是后者就只有interaction effects,所以这里我用了冒号。但是在回归分析结果中发现交叉项中涉及的因子变量的水平并不一样,如果用星号,则是(总水平数-1),而如果是冒号,则是总水平数,而且交叉项中变量的先后顺序也有不同,不知道两个模型的区别在哪里?
案例代码和数据如下(请大家忽略实际意义),理论上来讲,两个模型的差别在于glm_colon模型中,包含了因子变量att的main effct,但是没有包含连续变量hand的main effect,但是实际的结果却发现交叉项中涉及的att的水平也有所不同,glm_star只有4个水平,而glm_colon却有5个。不知道是什么原因?
test <- read.csv("test.csv")
head(test)
str(test)
test$att <- factor(test$att)
glm_star <- glm(formula = sex ~ hand * att, data = test,family=binomial)
glm_colon <- glm(formula = sex ~ att + hand : att, data = test,family=binomial)
summary(glm_star)
summary(glm_colon)
测试数据请移步:https://bbs.pinggu.org/a-1352379.html
想上传文件的,但是论坛总提示文件已存在,上传失败,只好麻烦各位了,谢谢!