全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1297 33
2022-05-11
英文标题:
《Factor Models for Cancer Signatures》
---
作者:
Zura Kakushadze and Willie Yu
---
最新提交年份:
2017
---
英文摘要:
  We present a novel method for extracting cancer signatures by applying statistical risk models (http://ssrn.com/abstract=2732453) from quantitative finance to cancer genome data. Using 1389 whole genome sequenced samples from 14 cancers, we identify an \"overall\" mode of somatic mutational noise. We give a prescription for factoring out this noise and source code for fixing the number of signatures. We apply nonnegative matrix factorization (NMF) to genome data aggregated by cancer subtype and filtered using our method. The resultant signatures have substantially lower variability than those from unfiltered data. Also, the computational cost of signature extraction is cut by about a factor of 10. We find 3 novel cancer signatures, including a liver cancer dominant signature (96% contribution) and a renal cell carcinoma signature (70% contribution). Our method accelerates finding new cancer signatures and improves their overall stability. Reciprocally, the methods for extracting cancer signatures could have interesting applications in quantitative finance.
---
中文摘要:
我们提出了一种利用统计风险模型提取癌症特征的新方法(http://ssrn.com/abstract=2732453)从定量金融到癌症基因组数据。使用来自14种癌症的1389个全基因组测序样本,我们确定了体细胞突变噪声的“整体”模式。我们给出了一个分解噪声的方法,并给出了固定签名数的源代码。我们将非负矩阵分解(NMF)应用于按癌症亚型聚合的基因组数据,并使用我们的方法进行过滤。与未经过滤的数据相比,生成的特征具有显著更低的可变性。此外,签名提取的计算成本降低了约10倍。我们发现了3种新的癌症特征,包括肝癌显性特征(96%的贡献)和肾细胞癌特征(70%的贡献)。我们的方法加速了寻找新的癌症特征,提高了它们的整体稳定性。反过来,提取癌症特征的方法在定量金融领域也可能有有趣的应用。
---
分类信息:

一级分类:Quantitative Biology        数量生物学
二级分类:Genomics        基因组学
分类描述:DNA sequencing and assembly; gene and motif finding; RNA editing and alternative splicing; genomic structure and processes (replication, transcription, methylation, etc); mutational processes.
DNA测序与组装;基因和基序的发现;RNA编辑和选择性剪接;基因组结构和过程(复制、转录、甲基化等);突变过程。
--
一级分类:Quantitative Biology        数量生物学
二级分类:Quantitative Methods        定量方法
分类描述:All experimental, numerical, statistical and mathematical contributions of value to biology
对生物学价值的所有实验、数值、统计和数学贡献
--
一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-5-11 06:25:48
癌症标志的因子模型祖拉·卡库沙泽§+1和威利·余]2§量化解决方案LLC1127 High Ridge Road#135,斯坦福德,CT 06905+第比利斯自由大学,商学院和物理学院240,第比利斯大卫·阿格马什内贝利巷,0159,乔治亚州]计算生物学中心,杜克·努斯医学院8学院路,新加坡169857(2016年4月28日)摘要我们提出了一种通过应用统计风险模型提取癌症特征的新方法(http://ssrn.com/abstract=2732453)从定量融资到癌症基因组数据。使用14种癌症的1389个全基因组测序样本,我们确定了体细胞突变噪声的“整体”模式。我们给出了一个分解噪声的方法,并给出了用于确定签名数量的源代码。我们将非负矩阵分解(NMF)应用于按癌症亚型聚合并使用我们的方法过滤的基因组数据。与未经过滤的数据相比,结果特征的可变性要低得多。此外,签名提取的计算成本降低了约10倍。我们发现了3种新的癌症特征,包括肝癌显性特征(96%的贡献)和肾细胞癌特征(70%的贡献)。我们的方法加速了发现新的癌症特征,并提高了它们的整体稳定性。同样,提取癌症特征的方法在定量金融中也有有趣的应用。Zura Kakushadze博士是QuantigicrSolutions LLC的总裁,第比利斯自由大学的全职教授。电子邮件:zura@quantigic.comWillie余博士是杜克国立大学医学院的研究员。电子邮件:威利。yu@dukenus.edu.sgDISCLAIMER当前位置通讯作者使用此地址的目的仅限于按照出版物惯例表明其专业职责。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-11 06:25:52
特别是,本文内容并非投资、法律、税务或任何其他此类建议,且不代表QuantigicSolutions LLC网站www.quantigic的观点。com或他们的任何一家公司。1简介和总结八分之一的人死于癌症。癌症在众多疾病中脱颖而出,因为它源于基因组中的体细胞改变。在癌症中发现的一种常见的体型改变是由于单核苷酸变异(SNV)或基因组中单个碱基的改变。这些SNV通过暴露于不同的突变过程,在癌症的整个生命周期中积累。这些过程可能是细胞内源性的,例如细胞分裂期间不完全的DNA复制或自发的胞嘧啶脱氨基[Goodman and Fygenson,1998],[Lindahl,1993]。由于暴露于化学损伤或紫外线辐射,它们也可能是外源性的[Loeb和Harris,2008],[Ananthaswamy和Piercall,1990]。所有这些突变过程,无论是外在的还是内在的,都将在癌症基因组中留下其活动的证据,其特征是独特的改变模式或突变特征。从知识的角度来看,如果一个人能够识别出所有的特征,从而识别出所有导致癌症的突变过程,那么他就可以开始理解癌症的起源和发展。从治疗的角度来看,如果不同类型的癌症之间没有明显的突变模式,那么不同的癌症很可能需要自己的类型特异性治疗,甚至是患者特异性治疗。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-11 06:25:55
然而,如果描述所有或大多数癌症类型的突变特征数量要少得多,那么针对一种癌症类型的治疗方法(存在某些突变特征)很可能适用于具有相同或类似突变特征的其他癌症类型。目前,突变特征的识别涉及分析DNA测序的整个癌症基因组队列中存在的SNV模式。在每个癌症基因组中发现的SNV可分为96种不同的突变类别。数据被组织成矩阵Gis,其中行对应于N=96个突变类别,列对应于d个样本,每个元素是给定样本中给定突变的非负发生计数。从Gis中提取癌症特征的常用方法[Alexandrov等人,2013a]是通过非负矩阵分解(NMF)[Paatero and Tapper,1994],[Lee and Seung,1999]。在NMF下,矩阵G通过G近似≈ 其中WiAis是N×K矩阵,has是K×d矩阵,W和H都是非负的。NMF的外观是其生物学解释,其中矩阵xw的K列被解释为K个癌症特征对N=96个突变类别的贡献权重,矩阵H的列被解释为识别癌症特征的其他实际动机是预防,通过将癌症样本中观察到的信号与暴露于各种致癌物引起的信号配对。简言之,DNA是由两条链组成的双螺旋,每条链都是一串字母a、C、G、T,分别对应于腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶。在双螺旋中,一条链中的A总是与另一条链中的T结合,而G总是与C结合。这就是已知的碱基互补性。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-11 06:25:58
因此,有六种可能的碱基突变C>A,C>G,C>G,T>A,T>C,T>G,而其他六种碱基突变通过碱基互补性与这些碱基突变相当。这6个可能的碱基突变中的每一个都由每侧的4个可能碱基组成,从而产生4×6×4=96个不同的突变类别。作为每个样本中K特征的暴露。为此付出的代价是,NMF是一个迭代过程,计算成本很高,取决于样本数d,运行它可能需要几天甚至几周的时间。此外,它不会自动确定签名K的数量,签名K必须通过尝试和错误获得,从而增加计算成本。其他考虑因素包括:i)样本外不稳定性,即从非重叠样本集获得的特征可能会显著不同;ii)样本不稳定性,即签名可能对初始迭代选择有很强的依赖性;和iii)计数较低或样本数量稀少的样本(即具有许多零的样本——此类样本无处不在,例如在外显子组数据中)通常被认为没有太大用处,因为它们会导致样本内的不稳定性。幸运的是,一个概念上类似的问题在定量金融领域得到了很好的研究,一旦我们在生物量和金融量之间建立了一个字典,我们就可以简单地从那里开发的工具库中借用。因此,在quant fi Financial文本中,一个涉及N只股票的投资组合,类似于N=96个突变类别。数据由每个股票的d(如每日)股票收益的时间序列组成,因此我们有一个N×d矩阵Ris。股票收益时间序列中的d观察值与癌症数据中的d样本类似。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-11 06:26:01
收益率Ris与计数Ris类似,只是收益率Ris不必为正。然而,这并不影响我们希望从定量融资中获得的东西。基于股票收益时间序列计算的样本相关矩阵ψij包含有关收益相关结构的重要信息。其通过主成分进行的谱分解提供了一种工具,用于识别收益背后的常见风险因素,即,在误差项之前,我们有≈ Ohm F,其中N×K(所谓的因子荷载)矩阵的列OhmIa与ψij的前K个主成分有关,K×dmatrix的列是因子收益的时间序列。在我们的字典里,矩阵Ohm 它类似于矩阵W,而矩阵F类似于矩阵H。那么,为什么这很有用,尤其是考虑到矩阵Ohm F在金融环境中不是非负的吗?我们可以从这个类比中提取两条有用的信息。首先,确定因素数量的算法是现成的[Kakushadze和Yu,2016b]。因此,如果我们基于发生计数矩阵GIS计算样本相关矩阵ψij,并应用统计风险模型中采用的方法,我们可以基于纯粹的统计方法确定癌症特征的数量(或至少一个有用的预期范围)。例如,[Kakushadze and Yu,2016b]中提出的一种方法基于ψij的eRank(E effectiverank)[Roy and Vetterli,2007],似乎对癌症特征很有效。第二,直观地看,Gis数据中存在大量噪音。健康人也会发生突变,例如DNA修复缺陷。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群