各位大侠,我不是统计学专业出身,但最近的一篇论文需要很多的统计学知识和技巧,各种数据真把我搞的焦头烂额,希望各位前辈能够指点一二,在下不胜感激!
我的论文是调查某几个基因的多态性与胃病发生之间的关系,用的是case-control的方法,自变量涉及性别、年龄、细菌感染与否,基因型,因变量分为胃癌组,胃炎组,对照组。统计软件是SPSS17.0
我遇到的问题有如下几个:
1、自变量基因型有3个水平,我将它们赋值为1、2、3,在分析时没有采用哑变量的分组方式,而是在数据变量视图中采用数据缺失的方法,因变量也采用这种方法用二元logistic回归实现数据分析。这样的做法是否可行,有什么弊端?
2、在对自变量性别、年龄、细菌感染对研究人群作单因素分析时发现,细菌感染的组间卡方检验p>0.05,没有显著差异。但据生物学理论细菌感染可能与基因型交互作用影响胃病的发生,我对基因型和细菌感染和胃病做析因分析,采用GLM单变量分析,结果显示p<0.05,这能否说明细菌感染和基因型存在交互作用?
3、在做二元logistic分析时,细菌感染(A),基因型(B),二者交互作用(A*B)是否一起放入协变量栏进行分析,设置reference时是单独的A reference还是单独的B reference或者将两个reference同时引入?我将二者的reference一起引入,给出的结果A(1)*B(1)的p<0.05,这时候得到的OR值它的含义是什么,是指A(1)与B(1)的联合作用与对照相比发生胃病的风险值么?我发现在引入交互作用项后,基因型的p值和OR值都发生了改变,在给出结果的时候是以这个为准还是以没有交互作用项时的为准呢?
4、在本例中交互作用的关系是否可以通过细菌感染与否对基因型的分层计算来实现呢?
大概就是这些问题吧,希望大家能看明白,里面可能有些问题的提法就是错误的,还请您不吝赐教啊!