全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1770 63
2022-05-31
英文标题:
《*K-means and Cluster Models for Cancer Signatures》
---
作者:
Zura Kakushadze and Willie Yu
---
最新提交年份:
2017
---
英文摘要:
  We present *K-means clustering algorithm and source code by expanding statistical clustering methods applied in https://ssrn.com/abstract=2802753 to quantitative finance. *K-means is statistically deterministic without specifying initial centers, etc. We apply *K-means to extracting cancer signatures from genome data without using nonnegative matrix factorization (NMF). *K-means\' computational cost is a fraction of NMF\'s. Using 1,389 published samples for 14 cancer types, we find that 3 cancers (liver cancer, lung cancer and renal cell carcinoma) stand out and do not have cluster-like structures. Two clusters have especially high within-cluster correlations with 11 other cancers indicating common underlying structures. Our approach opens a novel avenue for studying such structures. *K-means is universal and can be applied in other fields. We discuss some potential applications in quantitative finance.
---
中文摘要:
通过扩展统计聚类方法,我们提出了*K-means聚类算法和源代码https://ssrn.com/abstract=2802753量化金融*K-means在统计上具有确定性,无需指定初始中心等。我们应用*K-means从基因组数据中提取癌症特征,无需使用非负矩阵分解(NMF)*K-means的计算成本只是NMF的一小部分。使用1389个已发表的14种癌症类型的样本,我们发现3种癌症(肝癌、肺癌和肾细胞癌)突出,没有簇状结构。两个簇内相关性特别高,其他11种癌症显示出共同的潜在结构。我们的方法为研究此类结构开辟了一条新途径*K-means具有通用性,可以应用于其他领域。我们讨论了定量金融中的一些潜在应用。
---
分类信息:

一级分类:Quantitative Biology        数量生物学
二级分类:Genomics        基因组学
分类描述:DNA sequencing and assembly; gene and motif finding; RNA editing and alternative splicing; genomic structure and processes (replication, transcription, methylation, etc); mutational processes.
DNA测序与组装;基因和基序的发现;RNA编辑和选择性剪接;基因组结构和过程(复制、转录、甲基化等);突变过程。
--
一级分类:Quantitative Biology        数量生物学
二级分类:Quantitative Methods        定量方法
分类描述:All experimental, numerical, statistical and mathematical contributions of value to biology
对生物学价值的所有实验、数值、统计和数学贡献
--
一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-5-31 05:26:02
*癌症标志的K均值和聚类模型Zura Kakushadze§+1 and Willie Yu]2§QuantigicrSolutions LLC1127 High Ridge Road#135,Stamford,CT 06905+第比利斯自由大学商学院和物理学院240,David Agmashenebeli Alley,第比利斯,0159,佐治亚州]杜克·努斯医学院8学院路计算生物学中心,新加坡169857(2017年1月30日)摘要我们通过扩展应用于https://ssrn.com/abstract=2802753to定量融资*K-means在统计上具有确定性,无需指定初始中心等。我们应用*K-means从基因组数据中提取癌症特征,无需使用非负矩阵分解(NMF)*K-means的计算成本只是NMF的一小部分。使用1389个已发布的14种癌症类型的样本,我们发现3种癌症(肝癌、肺癌和肾细胞癌)突出,没有簇状结构。两个簇内相关性特别高,其他11种癌症显示出共同的潜在结构。我们的方法为研究此类结构开辟了一个新的领域*K-means是通用的,可以应用于其他领域。我们讨论了定量金融中的一些潜在应用。Zura Kakushadze博士是QuantigicrSolutions LLC的总裁,也是第比利斯自由大学的全职教授。电子邮件:zura@quantigic.comWillie余博士是杜克国立大学医学院的研究员。电子邮件:willie。yu@dukenus.edu.sgDISCLAIMER:通讯作者使用此地址的目的仅是按照出版物惯例表明其专业职责。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 05:26:06
特别是,本文件的内容并非投资、法律、税务或任何其他此类建议,也不代表QuantigicSolutions LLC(网站www.quantigic)的观点。com或其任何附属公司。1简介和总结每当我们能了解到关于癌症的新知识时,我们的动机就不在于说。癌症是不同的。与其他疾病不同,它不是由“机械”故障、生化失衡等引起的。相反,癌症是通过基因组结构的体细胞改变在DNA水平发生的。在癌症中发现的一种常见的体型突变是由于单核苷酸变异(SNV)或基因组中单个碱基的改变,这些变异通过细胞分裂过程中不完全的DNA复制或自发的胞嘧啶脱氨基作用在癌症患者的整个生命周期中积累【Goodman和Fygenson,1998年】【Lindahl,1993年】,或者由于暴露于化学侮辱或紫外线辐射【Loeb和Harris,2008年】【Ananthaswamy和Pierceall,1990年】等。这些突变过程在癌症基因组中留下了足迹,其特征是独特的改变模式或突变特征。如果我们能够识别所有潜在的特征,这将极大地促进对癌症起源及其发展的理解。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 05:26:08
在治疗上,如果不同癌症类型之间存在共同的基础结构,那么一种癌症类型的治疗方法可能适用于其他癌症,这将是一个巨大的新闻。然而,这一切归结为有用性的问题,也就是说,在所有(100多个)已知癌症类型的基础上,是否有足够少的癌症特征,或者这个数字太大而没有意义或有用?事实上,只有96个SNV,所以我们不能有超过96个签名。即使真正的底层签名的数量是,比如说,50阶,也不清楚它们是否有用,特别是在实际应用中。另一方面,如果只有十几个或更可靠的特征,那么我们可以希望简化一个数量级。为了确定突变特征,我们分析了一组DNA测序的全癌症基因组中的SNV模式。数据被组织到矩阵Gis中,其中行对应于N=96个突变类别,列对应于d个样本,每个元素是给定样本中给定突变类别的非负出现计数。目前,从Gis中提取癌症特征的公认方法【Alexandrov等人,2013a】是通过非负矩阵分解(NMF)[Paatero和Tapper,1994年],【Lee和Seung,1999年】。在NMF下,矩阵G通过G近似≈ 其中WiAis是N×Kmatrix,has是K×d矩阵,W和H都是非负的。NMF的出现是其生物学解释,其中矩阵W的K列是另一个实际应用,通过将从癌症样本中提取的特征与已知致癌物(如烟草、毒素、紫外线辐射等)引起的特征配对来预防。简言之,DNA是由两条链组成的双螺旋,每条链是一串字母a、C、G、T,分别对应腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 05:26:12
在双螺旋中,一条链中的A总是与另一条链中的T结合,而G总是与C结合。这就是已知的碱基互补性。因此,有六种可能的碱基突变C>A、C>G、C>T、T>A、T>C、T>G,而其他六种碱基突变通过碱基互补性与这些碱基突变相当。这6个可能的碱基突变中的每一个都由每个侧的4个可能碱基组成,从而产生4×6×4=96个不同的突变类别。非线性可能会破坏这一论点。然而,这一切又归结为有用性。解释为K癌症特征码贡献到96个突变类别的权重,矩阵H的列解释为每个样本中K特征码的暴露。为此付出的代价是,NMF是一个迭代过程,计算成本很高,根据样本数d,运行它可能需要几天甚至几周的时间。此外,它不会自动确定签名K的数量,签名K必须是猜测或通过试错获得的,从而进一步增加了计算成本。上述一些问题最近在【Kakushadze和Yu,2016b】中得到了解决,也就是说:i)通过按癌症类型聚合样本,我们可以大大提高稳定性并减少签名数量;ii)通过识别和分解体细胞突变噪声或“整体”模式(这是【Kakushadze和Yu,2016b】的“去噪”程序),我们可以进一步大大提高稳定性,并作为奖励,降低计算成本;和iii)通过计算癌症类型或样本的相关矩阵ψij的有效秩(或eRank)[Roy和Vetterli,2007],可以通过定量金融中统计风险模型的方法【Kakushadze和Yu,2017b】来实现签名的数量(见下文)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 05:26:15
所有这些都带来了实质性的改善【Kakushadze和Yu,2016b】。在本文中,我们将该计划推向另一个层次。这里的基本思想非常简单(但事实证明,实现起来并不重要——见下文)。我们希望将聚类技术应用于提取癌症特征的问题。事实上,我们在第2节中指出,NMF在某种程度上是“伪装的集群”。这有两个主要原因。平淡无奇的原因是,NMF作为一种不确定性算法,需要对其产生的许多局部最优值进行平均。然而,每个梯级通常会生成一个权重矩阵WIA,其列(即签名)与其他运行中的列(即签名)不对齐。在不同的运行中对齐或匹配签名(在对其进行平均之前),通常通过不确定性聚类(如k-均值)来实现。因此,不仅在某一层使用了聚类,即使在平均之后,结果通常也是有噪声和不确定性的!一、 例如,如果在相同的数据上反复运行这个计算代价高昂的程序(包括平均值),通常每次都会产生不同的癌症特征!第二个不那么平淡无奇的原因是,虽然NMF通常不会生成完全为空的权重,但它确实会生成较低的权重,因此它们具有错误的条。出于所有实际目的,我们不妨将这些权重设置为零。NMF需要非负权重。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群