悬赏 10 个论坛币 未解决
在工作中碰到个问题,关于关联分析的
先介绍下正常情况
目标:研究基因型跟身高的关系
数据:100个样本,每个样本都有身高和基因型,遗传学中的基因型是来着父母两方的组合,即AA,AT,TT三种情况,如
ID 基因型 身高
ID1 AA 172
ID2 AT 173
ID3 AT 175
.....
ID100 TT 170
以ID1和ID2为例子,ID1样本的身高172,基因型为AA,A和A分别来自父母中的一个; ID2样本的身高173,基因型为AT,A和T分别来自父母中的一个。
方法:1)根据基因型分成三组,AA,AT,TT,进行方差分析
2)将基因型转换成0,1,2,代表携带基因型T的数目,进行回归分析
现在介绍下一个挑战的情况
目标:研究基因型跟身高的关系
数据:100个样本,每个样本都有基因型和身高的信息,每个样本的基因型从自身的基因型中随机抽取一个
ID 基因型 身高
ID1 A 172
ID2 A 173
ID3 T 175
.....
ID100 T 170
以ID1和ID2为例子,ID1样本的基因型原本为AA,随机抽取一个,因为两个都是A,所以抽取结果一定为A; ID2样本的基因型原本为AT,A跟T随机抽取一个,抽到了A。
这下没办法根据基因型分成两组A和T进行方差分析了,因为AT有一半变成A,一半变成T,因此也没办法进行回归分析
我想到另一个方法,把身高切分成几个组,研究不同身高组之间基因型AT比例的变化,比如划分成2组,组一AT比例为15:35,组二AT比例为20:30,变成费舍尔精确检验;
但是这样就损失了身高的信息,于是想着能否分成3组以上,进行比例趋势检验。
或者把基因型根据样本所在的组别替换成比例,进行回归分析
或者有更好的更科学的做法
金币的悬赏实际上我对金币的价值一无所知,这样吧,能提出比我想到的方法更好的并且给出理论基础,我微信支付500元,知识的价值肯定远远不止于此,只是作为一点点心意。