全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1055 1
2020-09-30
悬赏 10 个论坛币 未解决
在工作中碰到个问题,关于关联分析的

先介绍下正常情况
目标:研究基因型跟身高的关系
数据:100个样本,每个样本都有身高和基因型,遗传学中的基因型是来着父母两方的组合,即AA,AT,TT三种情况,如
ID          基因型    身高
ID1        AA          172
ID2        AT          173
ID3        AT          175
.....
ID100    TT          170

以ID1和ID2为例子,ID1样本的身高172,基因型为AA,A和A分别来自父母中的一个; ID2样本的身高173,基因型为AT,A和T分别来自父母中的一个。
方法:1)根据基因型分成三组,AA,AT,TT,进行方差分析
         2)将基因型转换成0,1,2,代表携带基因型T的数目,进行回归分析

现在介绍下一个挑战的情况
目标:研究基因型跟身高的关系
数据:100个样本,每个样本都有基因型和身高的信息,每个样本的基因型从自身的基因型中随机抽取一个
ID          基因型    身高
ID1        A           172
ID2        A           173
ID3        T           175
.....
ID100    T           170

以ID1和ID2为例子,ID1样本的基因型原本为AA,随机抽取一个,因为两个都是A,所以抽取结果一定为A; ID2样本的基因型原本为AT,A跟T随机抽取一个,抽到了A。

这下没办法根据基因型分成两组A和T进行方差分析了,因为AT有一半变成A,一半变成T,因此也没办法进行回归分析

我想到另一个方法,把身高切分成几个组,研究不同身高组之间基因型AT比例的变化,比如划分成2组,组一AT比例为15:35,组二AT比例为20:30,变成费舍尔精确检验;
但是这样就损失了身高的信息,于是想着能否分成3组以上,进行比例趋势检验。
或者把基因型根据样本所在的组别替换成比例,进行回归分析

或者有更好的更科学的做法

金币的悬赏实际上我对金币的价值一无所知,这样吧,能提出比我想到的方法更好的并且给出理论基础,我微信支付500元,知识的价值肯定远远不止于此,只是作为一点点心意。



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2020-10-19 15:26:58
没人有解决方案么
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群