全部版块 我的主页
论坛 经济学人 二区 外文文献专区
2022-5-11 06:27:25
在定量金融中,资金是有风险的,所以检验样本稳定性的方法相当容易理解。基于这些方法,对癌症特征的样本外稳定性的真正测试将是采集一组样本,将其分成2个(或更多)不重叠的子集,根据这些子集独立提取特征并进行比较。事实上,要想有任何统计意义,我们需要一组这样的非重叠集合。例如,我们可以抽取一些样本,并将它们随机分成两半多次。为了使这一点有意义,我们首先需要大量的样本。我们在这篇论文中使用的数据在这个意义上相当有限,因为它只包括公开的基因组样本。不仅癌症类型的数量限制在14种,而且每种癌症类型的样本数量也有限。例如,对于前列腺癌,我们只有5个样本,对于该癌症类型,任何有意义的样本外稳定性测试都是无法实现的。另一方面,在[Alexandrovet al,2013b]中,我们报道了肝癌的aThis作为一个单一特征(几乎与我们的特征2相同),然而,随后,它被分成两个不同的特征,通常出现在相同的样本中。有关详细评论,请参阅http://cancer.sanger.ac.uk/cosmic/signatures.Recovering当我们使用这些参考文献中的数据时,这些签名并不令人惊讶。大量样本(389),这似乎是提取这种癌症类型超显性特征的一个促成因素,尽管不是主导因素——如果不“去噪”,这种特征就不是显性的,在[Fujimoto et al,2016]中也没有发现,大多数肝癌样本都发表在[Fujimoto et al,2016]中。我们需要尽可能多的数据来以任何有意义的方式研究样品外稳定性。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-11 06:27:28
在这方面,ICGC(仍被禁止)的数据似乎是有希望的个别癌症类型呢?我们对按癌症类型汇总的数据进行了NMF分析。我们能对个别癌症类型做同样的治疗吗?答案是肯定的——毕竟,NMF通常就是这样应用的——但需要注意。按癌症类型汇总数据的优点之一是降低了噪音水平。个别癌症类型的样本通常太吵了。低样本加剧了这一问题。表7正好证明了这一点。一旦我们移除“整体”模式(这会降低K的值),基于统计因子模型分析,我们会得到太多的因素,因此我们也可以预期签名的激增。如上所述,太多的签名是无用的。事实上,个别癌症类型的高K值表明任何潜在特征的样本外不稳定性。有一些方法可以降低个别癌症类型的噪音,但是,它们不在本文的范围内,将在其他地方报告。考虑单个癌症类型的一个实际动机是,在每种癌症类型中,可能有人们希望了解的生物因素,例如,肝癌的突变谱可能具有很大的区域依赖性,因为它们会因暴露于不同的化学品而突变。然而,在一种癌症类型中,按区域进行聚集仍然可以减少噪音外显子组数据。已发表的外显子组数据量远远高于已发表的基因组数据量。在这方面,将你的方法应用于外显子组数据是有意义的。需要注意的是,外显子组数据的人口比基因组数据少得多,这与基因组数据背景下的低计数样本具有相同的影响。按癌症类型进行聚集是一种自然现象。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-11 06:27:33
主要问题是,仔细确定公布了哪些样本很耗时。我们计划单独讨论外显子组数据“最小化”和基于eRank的算法。前者通常导致K值低于后者。对于手头的数据,基于eRank的算法非常适合计算签名数量。在这方面,基于eRank的算法似乎应该是go-to方法,然而,基于“最小化”的算法仍然有用,因为这两种算法设置了应执行搜索的K值的预期范围。拥有(紧凑的)KHELP范围可以降低计算成本——如上所述,NMF作为一个迭代过程,计算成本很高。说到这里,我们观察到,在普通矩阵和“去噪”矩阵之间,迭代次数(在每个“采样”内——见上文)减少了约10倍。“去噪”不仅提高了结果签名的质量,还提供了大量的计算。我们要感谢史蒂文·罗森向我们强调这一点。或者,个别癌症类型中预期的不稳定因素似乎太多(表7)。节省成本。回想起来,这并不奇怪。“去噪”(而不是按癌症类型进行聚合)是提高整体稳定性的关键因素——基于聚合数据而不进行“去噪”的签名具有更大的误差条框架本文并不打算以任何方式详尽无遗。如上所述,我们在这里使用的数据有限,等等。相反,本文的目的是阐述癌症特征因子模型的框架,包括其作为NMF改进的应用。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-14 08:24:15
感谢分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群