全部版块 我的主页
论坛 经济学人 二区 外文文献专区
894 26
2022-06-15
英文标题:
《Mutation Clusters from Cancer Exome》
---
作者:
Zura Kakushadze and Willie Yu
---
最新提交年份:
2017
---
英文摘要:
  We apply our statistically deterministic machine learning/clustering algorithm *K-means (recently developed in https://ssrn.com/abstract=2908286) to 10,656 published exome samples for 32 cancer types. A majority of cancer types exhibit mutation clustering structure. Our results are in-sample stable. They are also out-of-sample stable when applied to 1,389 published genome samples across 14 cancer types. In contrast, we find in- and out-of-sample instabilities in cancer signatures extracted from exome samples via nonnegative matrix factorization (NMF), a computationally costly and non-deterministic method. Extracting stable mutation structures from exome data could have important implications for speed and cost, which are critical for early-stage cancer diagnostics such as novel blood-test methods currently in development.
---
中文摘要:
我们应用统计确定性机器学习/聚类算法*K-means(最近在https://ssrn.com/abstract=2908286)至10656份已发表的32种癌症类型的外显子组样本。大多数癌症类型表现出突变聚类结构。我们的结果样本稳定。当应用于14种癌症类型的1389个已发表的基因组样本时,它们也是样本外稳定的。相反,我们发现通过非负矩阵因式分解(NMF)从外显子组样本中提取的癌症特征存在样本内和样本外不稳定性,这是一种计算成本高且不确定的方法。从外显子组数据中提取稳定的突变结构可能会对速度和成本产生重要影响,这对于早期癌症诊断至关重要,例如目前正在开发的新型血液检测方法。
---
分类信息:

一级分类:Quantitative Biology        数量生物学
二级分类:Genomics        基因组学
分类描述:DNA sequencing and assembly; gene and motif finding; RNA editing and alternative splicing; genomic structure and processes (replication, transcription, methylation, etc); mutational processes.
DNA测序与组装;基因和基序的发现;RNA编辑和选择性剪接;基因组结构和过程(复制、转录、甲基化等);突变过程。
--
一级分类:Quantitative Biology        数量生物学
二级分类:Quantitative Methods        定量方法
分类描述:All experimental, numerical, statistical and mathematical contributions of value to biology
对生物学价值的所有实验、数值、统计和数学贡献
--
一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-15 17:20:51
癌症ExomeZura Kakushadze§+1和Willie Yu]2§QuantigicrSolutions LLC1127 High Ridge Road#135,Stamford,CT 06905+第比利斯自由大学商学院和物理学院240,David Agmashenebeli Alley,第比利斯,0159,乔治亚州]计算生物学中心,杜克·努斯医学院8 College Road,新加坡169857(2017年3月31日)摘要我们应用统计确定性机器学习/聚类算法*K-means(最近在https://ssrn.com/abstract=2908286)至10656份已发表的32种癌症类型的外显子组样本。大多数癌症类型表现出突变聚类结构。我们的结果在样本中是稳定的。当应用于14种癌症类型的1389个已发表的基因组样本时,它们也是样本外稳定的。相比之下,我们通过非负矩阵分解(NMF)从外显子组样本中提取的癌症特征中发现了样本内和样本外的不稳定性,这是一种计算成本高且不确定性的方法。从外显子组数据中提取稳定的突变结构可能会对速度和成本产生重要影响,这对于早期癌症诊断至关重要,例如目前正在开发的新型血液检测方法。关键词:聚类、K均值、非负矩阵分解、体细胞突变、癌症特征、基因组、外显子组、DNA、eRank、相关性、协方差、机器学习、样本、矩阵、源代码、定量金融、统计风险模型、行业分类Zura Kakushadze博士是Quantigicrolutions LLC的总裁,也是第比利斯自由大学的全职教授。电子邮件:zura@quantigic.comWillie余博士是杜克国立大学医学院的研究员。电子邮件:willie。yu@dukenus.edu.sgDISCLAIMER:通讯作者使用此地址的目的仅是按照出版物惯例表明其专业职责。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-15 17:20:54
特别是,本文件的内容并非投资、法律、税务或任何其他此类建议,也不代表QuantigicSolutions LLC(网站www.quantigic)的观点。com或其任何附属公司。1简介和总结除非人类找到治愈方法,否则今天大约有10亿人将死于癌症。与其他疾病不同,癌症是通过基因组中的体细胞改变在DNA水平发生的。在癌症中发现的这种突变的一种常见类型是由于基因组中单个碱基的改变(单核苷酸变异或SNV)。这些改变是通过各种突变过程在个体的整个生命周期内累积的,例如细胞分裂过程中的不完全DNA复制或自发的胞嘧啶脱氨基作用【Goodman和Fygenson,1998】【Lindahl,1993】,或由于暴露于化学损伤或紫外线辐射【Loeb和Harris,2008】【Ananthaswamy和Piercall,1990】,这些突变在癌症基因组中留下的足迹以独特的改变模式为特征,称为癌症特征。识别所有癌症特征将极大地促进了解癌症起源及其发展的进展。在治疗上,如果不同癌症类型之间存在共同的基础结构,那么一种癌症类型的治疗可能适用于其他癌症类型,这将是一个好消息。从诊断角度来看,识别所有潜在的癌症特征将有助于癌症检测和识别方法,包括重要的早期检测——根据美国癌症协会的数据,未知来源的晚期转移性癌症约占所有癌症的2%【ACS,2017年】,几乎不可能进行治疗。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-15 17:20:57
另一个实际应用是通过将从癌症样本中提取的特征与已知致癌物(例如,烟草、毒素、紫外线辐射等)引起的特征配对进行预防。归根结底,这一切都归结为有用性的问题:所有(100多个)已知癌症类型背后的癌症特征是否足够少,或者这个数字是否太大而没有意义/有用?因此,如果我们关注96种SNV突变类型,我们不能拥有超过96个特征码。即使真正的底层签名的数量是,比如说,50阶,也不清楚它们是否有用,特别是在实际应用中。另一方面,如果只有十几个潜在的癌症特征,那么就有希望简化一个数量级。提取癌症特征的常用方法【Alexandrov等人,2013a】基于非负矩阵分解(NMF)[Paatero和Tapper,1994年],【Lee和Seung,1999年】。因此,我们分析了DNASee队列中的SNV模式,例如,【Cho等人,2014年】。Grail,Inc.\'srecent的目标是早期检测(通过血液检测)~$1B轮B系列融资——参见,例如,【纳斯达克环球电讯报,2017年】。简言之,DNA是由两条链组成的双螺旋,每条链是一串字母a、C、G、T,分别对应腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶。在双螺旋中,一条链中的A总是与另一条链中的T结合,而G总是与C结合。这就是已知的碱基互补性。因此,有六种可能的碱基突变C>A、C>G、C>T、T>A、T>C、T>G,而其他六种碱基突变通过碱基互补性与这些碱基突变相当。这6个可能的碱基突变中的每一个都由每个侧的4个可能碱基组成,从而产生4×6×4=96个不同的突变类别。先验地,非线性可能会改变这一结论。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-15 17:21:00
然而,这种非线性也可能导致癌症特征基本上无用。。。对整个癌症基因组进行测序,并将数据组织到矩阵Giu中,其中行对应于N=96个突变类别,列对应于tod样本,每个元素是给定样本中给定突变类别的非负发生计数。在NMF下,矩阵G通过G逼近≈ W H,其中WiAis为N×K矩阵,HAu为K×d矩阵,W和H均为非负矩阵。NMF的吸引力在于其生物学解释,其中矩阵W的K列被解释为K癌信号对N=96突变类别的贡献权重,矩阵H的列被解释为每个样本中这些K信号的暴露。为此付出的代价是,NMF是一个迭代过程,计算成本很高,根据样本数d,它可能需要几天甚至几周才能运行。此外,NMF不会固定签名K的数量,签名K必须是猜测或通过试错获得的,从而进一步增加了计算成本。也许最重要的是,NMF是一种不确定性算法,每次运行都会生成不同的矩阵W。这是通过对通过多次NMF运行(或采样)获得的多个此类W矩阵进行平均来解决的。然而,每次运行通常会生成一个权重矩阵WIAW,其中的列(即签名)与其他运行中的列不对齐。在不同的运行中对齐或匹配签名(在对其进行平均之前),通常通过不确定性聚类(如k-means)来实现。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-15 17:21:03
因此,结果,即使在平均之后,通常也是有噪声和不确定性的!一、 例如,如果在相同的数据上反复运行这个计算成本高昂的程序(包括平均值),通常每次都会产生不同的癌症特征!简单地说,基于NMF的提取癌症特征的方法并不是为了在样本中保持稳定而设计的。在这种情况下,样本外稳定性甚至无法想象。。。如果没有样本内和样本外的稳定性,癌症特征的实际治疗和诊断应用将是一个挑战。例如,假设来自患者样本的onesequences基因组(或外显子组–见下文)数据。让我们关注SNV。我们有96个突变类别的发生计数向量。我们需要一个快速的计算测试,以足够高的置信度来确定i)该数据中是否存在癌症特征,以及ii)该癌症特征对应的癌症类型(即癌症起源于哪个器官)。如果癌症特征甚至在样本中都不稳定,那么我们就不能相信它们。它们可能只是噪音。事实上,在这些数据中总是存在体细胞突变噪声,在提取癌症特征之前,必须将其从数据中剔除。理解体细胞突变噪声的一个简单方法是注意到突变(i)已经存在于未受癌症影响的人类中,以及(ii)此类突变,每个W对应于NMF目标函数无数个局部极小值中的一个。“噪声”是指通过平均获得的权重中的统计误差。通常,关于癌症特征的文献中没有此类错误条的报道。通常,它们很大。一、 例如,从非重叠样本集获得的癌症特征可能会显著不同。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群