全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
2205 10
2018-06-09
微信图片_20180609141305.png
请教大家一个问题:举个例子,如图,每一行代表的是一个肿瘤样本,约有200个样本。gold standard表示肿瘤的良恶性(0和1),ABCDEFGH分别代表8个关键基因是否表达(0和1,其实还有很多基因没有展示)。现在我想实现这样一个目的:用这些基因的表达谱(即0或1)来预测肿瘤的良恶性。那么,有以下几个问题:
1.是否可以用朴素贝叶斯算法来解决这个问题(医生,机器学习初学者,自我感觉可以用贝叶斯,问题类似于垃圾邮件,但不敢确定)。
2. 关键基因不止8个,有几十个,如何挑选有用的基因纳入模型,作为自变量。
3.最常用logistic回归是否能解决这类问题?
4.是否存在这样一种方法,能够以最少的基因数来最准确地预测肿瘤的良恶性?

这是临床大数据时代,数据基础薄弱的医生们迫切想要知道的。特此请教论坛各位老师!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-6-12 08:31:43
lanhong1993 发表于 2018-6-9 14:25
请教大家一个问题:举个例子,如图,每一行代表的是一个肿瘤样本,约有200个样本。gold standard表示肿瘤 ...
可以,我做过
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-6-12 08:32:27
lanhong1993 发表于 2018-6-9 14:25
请教大家一个问题:举个例子,如图,每一行代表的是一个肿瘤样本,约有200个样本。gold standard表示肿瘤 ...
我的基因是数万个,样本100多
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-6-12 11:21:53
可以用logistic regression来实现

对于这个问题,如果基因选择足够具有代表性,其实预测方法不会有什么差别

可以考虑把所有变量都进入模型 用AIC筛选
或者直接采取随机森林
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-6-12 17:42:07
寂寞相思雨2016 发表于 2018-6-12 08:32
我的基因是数万个,样本100多
好的,谢谢回复。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-6-12 17:42:38
xwan288 发表于 2018-6-12 11:21
可以用logistic regression来实现

对于这个问题,如果基因选择足够具有代表性,其实预测方法不会有什么差 ...
随机森林方法也可以么?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群