癌症特征的因子模型

nandehutu2022

1406

收藏 2022-05-11

英文标题：
《Factor Models for Cancer Signatures》
---
作者：
Zura Kakushadze and Willie Yu
---
最新提交年份：
2017
---
英文摘要：
We present a novel method for extracting cancer signatures by applying statistical risk models (http://ssrn.com/abstract=2732453) from quantitative finance to cancer genome data. Using 1389 whole genome sequenced samples from 14 cancers, we identify an \"overall\" mode of somatic mutational noise. We give a prescription for factoring out this noise and source code for fixing the number of signatures. We apply nonnegative matrix factorization (NMF) to genome data aggregated by cancer subtype and filtered using our method. The resultant signatures have substantially lower variability than those from unfiltered data. Also, the computational cost of signature extraction is cut by about a factor of 10. We find 3 novel cancer signatures, including a liver cancer dominant signature (96% contribution) and a renal cell carcinoma signature (70% contribution). Our method accelerates finding new cancer signatures and improves their overall stability. Reciprocally, the methods for extracting cancer signatures could have interesting applications in quantitative finance.
---
中文摘要：
我们提出了一种利用统计风险模型提取癌症特征的新方法(http://ssrn.com/abstract=2732453)从定量金融到癌症基因组数据。使用来自14种癌症的1389个全基因组测序样本，我们确定了体细胞突变噪声的“整体”模式。我们给出了一个分解噪声的方法，并给出了固定签名数的源代码。我们将非负矩阵分解（NMF）应用于按癌症亚型聚合的基因组数据，并使用我们的方法进行过滤。与未经过滤的数据相比，生成的特征具有显著更低的可变性。此外，签名提取的计算成本降低了约10倍。我们发现了3种新的癌症特征，包括肝癌显性特征（96%的贡献）和肾细胞癌特征（70%的贡献）。我们的方法加速了寻找新的癌症特征，提高了它们的整体稳定性。反过来，提取癌症特征的方法在定量金融领域也可能有有趣的应用。
---
分类信息：

一级分类：Quantitative Biology 数量生物学
二级分类：Genomics 基因组学
分类描述：DNA sequencing and assembly; gene and motif finding; RNA editing and alternative splicing; genomic structure and processes (replication, transcription, methylation, etc); mutational processes.
DNA测序与组装；基因和基序的发现；RNA编辑和选择性剪接；基因组结构和过程（复制、转录、甲基化等）；突变过程。
--
一级分类：Quantitative Biology 数量生物学
二级分类：Quantitative Methods 定量方法
分类描述：All experimental, numerical, statistical and mathematical contributions of value to biology
对生物学价值的所有实验、数值、统计和数学贡献
--
一级分类：Quantitative Finance 数量金融学
二级分类：Statistical Finance 统计金融
分类描述：Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载：
-->

Factor_Models_for_Cancer_Signatures.pdf
大小:(1.04 MB)

马上下载

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

大多数88

2022-5-11 06:25:48

癌症标志的因子模型祖拉·卡库沙泽§+1和威利·余]2§量化解决方案LLC1127 High Ridge Road#135，斯坦福德，CT 06905+第比利斯自由大学，商学院和物理学院240，第比利斯大卫·阿格马什内贝利巷，0159，乔治亚州]计算生物学中心，杜克·努斯医学院8学院路，新加坡169857（2016年4月28日）摘要我们提出了一种通过应用统计风险模型提取癌症特征的新方法(http://ssrn.com/abstract=2732453)从定量融资到癌症基因组数据。使用14种癌症的1389个全基因组测序样本，我们确定了体细胞突变噪声的“整体”模式。我们给出了一个分解噪声的方法，并给出了用于确定签名数量的源代码。我们将非负矩阵分解（NMF）应用于按癌症亚型聚合并使用我们的方法过滤的基因组数据。与未经过滤的数据相比，结果特征的可变性要低得多。此外，签名提取的计算成本降低了约10倍。我们发现了3种新的癌症特征，包括肝癌显性特征（96%的贡献）和肾细胞癌特征（70%的贡献）。我们的方法加速了发现新的癌症特征，并提高了它们的整体稳定性。同样，提取癌症特征的方法在定量金融中也有有趣的应用。Zura Kakushadze博士是QuantigicrSolutions LLC的总裁，第比利斯自由大学的全职教授。电子邮件：zura@quantigic.comWillie余博士是杜克国立大学医学院的研究员。电子邮件：威利。yu@dukenus.edu.sgDISCLAIMER当前位置通讯作者使用此地址的目的仅限于按照出版物惯例表明其专业职责。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-5-11 06:25:52

特别是，本文内容并非投资、法律、税务或任何其他此类建议，且不代表QuantigicSolutions LLC网站www.quantigic的观点。com或他们的任何一家公司。1简介和总结八分之一的人死于癌症。癌症在众多疾病中脱颖而出，因为它源于基因组中的体细胞改变。在癌症中发现的一种常见的体型改变是由于单核苷酸变异（SNV）或基因组中单个碱基的改变。这些SNV通过暴露于不同的突变过程，在癌症的整个生命周期中积累。这些过程可能是细胞内源性的，例如细胞分裂期间不完全的DNA复制或自发的胞嘧啶脱氨基[Goodman and Fygenson，1998]，[Lindahl，1993]。由于暴露于化学损伤或紫外线辐射，它们也可能是外源性的[Loeb和Harris，2008]，[Ananthaswamy和Piercall，1990]。所有这些突变过程，无论是外在的还是内在的，都将在癌症基因组中留下其活动的证据，其特征是独特的改变模式或突变特征。从知识的角度来看，如果一个人能够识别出所有的特征，从而识别出所有导致癌症的突变过程，那么他就可以开始理解癌症的起源和发展。从治疗的角度来看，如果不同类型的癌症之间没有明显的突变模式，那么不同的癌症很可能需要自己的类型特异性治疗，甚至是患者特异性治疗。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-5-11 06:25:55

然而，如果描述所有或大多数癌症类型的突变特征数量要少得多，那么针对一种癌症类型的治疗方法（存在某些突变特征）很可能适用于具有相同或类似突变特征的其他癌症类型。目前，突变特征的识别涉及分析DNA测序的整个癌症基因组队列中存在的SNV模式。在每个癌症基因组中发现的SNV可分为96种不同的突变类别。数据被组织成矩阵Gis，其中行对应于N=96个突变类别，列对应于d个样本，每个元素是给定样本中给定突变的非负发生计数。从Gis中提取癌症特征的常用方法[Alexandrov等人，2013a]是通过非负矩阵分解（NMF）[Paatero and Tapper，1994]，[Lee and Seung，1999]。在NMF下，矩阵G通过G近似≈ 其中WiAis是N×K矩阵，has是K×d矩阵，W和H都是非负的。NMF的外观是其生物学解释，其中矩阵xw的K列被解释为K个癌症特征对N=96个突变类别的贡献权重，矩阵H的列被解释为识别癌症特征的其他实际动机是预防，通过将癌症样本中观察到的信号与暴露于各种致癌物引起的信号配对。简言之，DNA是由两条链组成的双螺旋，每条链都是一串字母a、C、G、T，分别对应于腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶。在双螺旋中，一条链中的A总是与另一条链中的T结合，而G总是与C结合。这就是已知的碱基互补性。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-5-11 06:25:58

因此，有六种可能的碱基突变C>A，C>G，C>G，T>A，T>C，T>G，而其他六种碱基突变通过碱基互补性与这些碱基突变相当。这6个可能的碱基突变中的每一个都由每侧的4个可能碱基组成，从而产生4×6×4=96个不同的突变类别。作为每个样本中K特征的暴露。为此付出的代价是，NMF是一个迭代过程，计算成本很高，取决于样本数d，运行它可能需要几天甚至几周的时间。此外，它不会自动确定签名K的数量，签名K必须通过尝试和错误获得，从而增加计算成本。其他考虑因素包括：i）样本外不稳定性，即从非重叠样本集获得的特征可能会显著不同；ii）样本不稳定性，即签名可能对初始迭代选择有很强的依赖性；和iii）计数较低或样本数量稀少的样本（即具有许多零的样本——此类样本无处不在，例如在外显子组数据中）通常被认为没有太大用处，因为它们会导致样本内的不稳定性。幸运的是，一个概念上类似的问题在定量金融领域得到了很好的研究，一旦我们在生物量和金融量之间建立了一个字典，我们就可以简单地从那里开发的工具库中借用。因此，在quant fi Financial文本中，一个涉及N只股票的投资组合，类似于N=96个突变类别。数据由每个股票的d（如每日）股票收益的时间序列组成，因此我们有一个N×d矩阵Ris。股票收益时间序列中的d观察值与癌症数据中的d样本类似。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-5-11 06:26:01

收益率Ris与计数Ris类似，只是收益率Ris不必为正。然而，这并不影响我们希望从定量融资中获得的东西。基于股票收益时间序列计算的样本相关矩阵ψij包含有关收益相关结构的重要信息。其通过主成分进行的谱分解提供了一种工具，用于识别收益背后的常见风险因素，即，在误差项之前，我们有≈ Ohm F，其中N×K（所谓的因子荷载）矩阵的列OhmIa与ψij的前K个主成分有关，K×dmatrix的列是因子收益的时间序列。在我们的字典里，矩阵Ohm 它类似于矩阵W，而矩阵F类似于矩阵H。那么，为什么这很有用，尤其是考虑到矩阵Ohm F在金融环境中不是非负的吗？我们可以从这个类比中提取两条有用的信息。首先，确定因素数量的算法是现成的[Kakushadze和Yu，2016b]。因此，如果我们基于发生计数矩阵GIS计算样本相关矩阵ψij，并应用统计风险模型中采用的方法，我们可以基于纯粹的统计方法确定癌症特征的数量（或至少一个有用的预期范围）。例如，[Kakushadze and Yu，2016b]中提出的一种方法基于ψij的eRank（E effectiverank）[Roy and Vetterli，2007]，似乎对癌症特征很有效。第二，直观地看，Gis数据中存在大量噪音。健康人也会发生突变，例如DNA修复缺陷。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

大多数88

2022-5-11 06:26:04

此外，我们可以预期，在存在癌症的情况下，样本协方差矩阵Cij=σiσjψij，其中σi是样本方差和ψii≡ 1.我们将在下面详细回顾这些方法。这个想法的要点是确定K，它优化了因子（特征码）和误差项对ψij对角线的贡献。由于DNA中各种过程（包括修复）的正常运行中断，与癌症特征不直接相关的此类或类似突变可能变得更加普遍。这种“背景噪声”掩盖了签名，在尝试提取任何签名之前，必须对数据进行识别和分解。在金融领域，这就是众所周知的“市场”模式，它对应于影响所有股票（不同程度）的大市场的整体运动——流入（流出）市场的现金往往会推高（降低）股价。这是市场风险因素。为了缓解这一风险因素，例如，可以持有一个美元中性的股票组合（多头和空头持有相同的美元）。我们可以用这个类比来分析癌症的特征。根据我们的实证分析，我们确实在事件计数数据中找到了我们所称的“整体”模式——金融“市场”模式的类似物。它是明确存在的。下面是理解这种“整体”模式的简单方法。不同突变（I6=j）之间的平均成对相关性ψij不为零，事实上，对于我们研究的大多数癌症类型来说，该相关性都很高。这是必须消除的噪音。如果我们按癌症类型聚合样本，并计算样本相关性矩阵ψij，以获得如此聚合的数据（我们研究的n=14种癌症类型），如果我们基于Gis，平均相关性约为75%，如果我们使用基于日志的矩阵，则平均相关性高达96%（见下文）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-5-11 06:26:07

另一种思考方式是，不同样本中的发生计数并非在所有样本中统一标准化。因此，在香草基质上运行NMF可能会导致苹果和橙子的混合，从而掩盖真正的潜在特征。因此，将“整体”模式（或“去噪”矩阵Gis）分解出去，大多数暗示都相当于横截面（即，跨越96个突变类别）的贬低。简单地说，我们可以贬低Gis的专栏。一个明显的问题是，尽管如此贬低的GIS可以用于将统计因子模型方法应用于它（回想一下，回报率不必为正）来确定签名的数量，但我们无法在这样的矩阵上运行NMF，因为它不再是非负的。另一个更微妙的问题是，地理信息系统中的计数分布——计数为非负数——不是（准）正态分布，而是偏态分布，在高端有长尾巴。事实上，它们是准对数正态的，这是非负量的常见现象。因此，与其贬低G列，不如贬低ln（G）列（并为了运行NMF而重新指数化）。一个小问题是GISCAN的某些元素可能为0。处理这个问题的一个简单方法是设置Ris=ln（1+Gis），并基于Ris（与Gis相反）或Ris构建相关矩阵ψij，即Ris，其中列被降级——这相当于分解出“整体”模式。我们使用Ris、Ris以及Gis和Gis（这是Gis，列被删除）进行分析，明确发现使用“去噪”的基于日志的矩阵Ris效果最好。“市场”模式是ψij:V（1）i的（准均匀）第一主成分≈ 1/√N.表1总结了矩阵和Risacrosscancer类型和突变类别的平均/中位数比率和偏度，并使计数的偏斜性质变得明显。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-5-11 06:26:11

当我们在许多癌症类型的样本中考虑时，这种偏斜会加剧。此外，这里有一个使用基于统计因子模型的方法确定签名数量的简单处方。按照癌症类型计算上述RISA的发生计数。也就是说，GIS是一个N×N矩阵，在我们的案例中，癌症类型的数量N=14。基于Ris计算样本相关矩阵ψij，即计算14种癌症类型的相关性。计算eRank（ψij）并将其四舍五入到最接近的整数。这是癌症特征码K的预期数量（不包括“整体”模式，即噪声）。这个简单的程序似乎可以很好地实现这一目的，我们基于统计因子模型方法详细解释了为什么会出现这种情况，以及另一种计算K的方法，该方法给出了类似的结果。定义K的一种补充方法是计算每个癌症类型的样本相关矩阵[ψ（α）]ij，用α=1，n（[ψ（α）]ij是基于α-甲状腺癌类型的样本计算的），取第一主成分[V（α）]（1）如果每个相关矩阵[ψ（α）]ij，计算内积的n×n矩阵E（1）αβ=PNi=1[V（α）]（1）i[V（β）]（1）i，计算E=eRank（E（1）αβ），并用四舍五入的E来识别K。该方法对K的预测与上述使用eRank（ψij）的方法基本相同。一旦我们确定了预期的签名数量K，我们就可以使用NMF提取癌症签名。然而，如上所述，在GISSUB上运行NMF是最佳的，因为它包含“整体”模式下的噪声。消除“整体”模式的一个简单方法是在重新求幂的矩阵Xegis=exp（Ris）上运行NMF。请注意，这些元素不再被解释为“计数”——它们是分数和较低的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-5-11 06:26:14

我们可以包括一个整体规范化，使其看起来更像原始矩阵Gis，但是，这不会影响通过NMF提取的签名。现在我们的状态很好：我们有了预期的signaturesK数量和“去噪”矩阵，我们可以通过NMF从中提取签名。值得注意的是，我们发现了4个以前已知的签名和3个新签名。其中一个新的特征主要是肝癌（占96%以上），几乎没有峰值变异性。另一个新的特征是去卵巢程度较低的肾细胞癌（占70%以上）。第三个新特征主要出现在骨癌、脑低级别胶质瘤和髓母细胞瘤（以及其他5种程度较轻的癌症）。如果我们使用GIS而不是GIS，我们会发现相同的签名（加上“整体”模式），但使用GIS时，签名显然更稳定。简单地说，去除“整体”模式（噪声）图1和图2有助于形象化为什么分解“整体”模式会降低噪声。例如，我们可以取egis=exp（平均值（Ris）+Ris），oreGis=exp（中位数（Ris）+Ris），等等。从技术上讲，在重新求幂后，我们应该减去我们在定义Ris=ln（1+Gis）中添加的额外1。这可以通过使用脚注10中的定义来实现，减去1后产生的（相对而言）负元素应归零。然而，这似乎不会对结果产生太大影响，所以不要让我们使用egis=exp（Ris）进行的工作过于复杂。也就是说，[Nik Zainal等人，2012年]，[Alexandrov等人，2013b]的突变特征1（自发胞嘧啶脱氨）、2+13（APOBEC介导的胞嘧啶脱氨）、4（与烟草致癌物相关的暴露）和17（出现在食道癌、乳腺癌、肝癌、肺腺癌、B细胞淋巴瘤、胃癌和黑色素瘤中；突变过程未知）。支付高额股息。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-5-11 06:26:17

现在，我们要强调的是，我们的结果是基于按癌症类型汇总的发生计数。这种方法的优点包括：i）数据比按癌症类型分类的样本噪音小得多；ii）它允许我们使用所有基因组数据，包括低计数的数据。在这方面，我们的方法可以很容易地应用于外显子组数据，我们将在其他地方报告这些数据，并将我们的分析扩展到单个癌症类型。本文的其余部分组织如下。在第2-4节中，我们回顾了我们借用的定量融资机制。第5节将此机制应用于取消签名。第6节讨论了基于14种癌症类型公布数据的实证结果。第7节讨论了我们的NMF结果。我们将在第8节简要总结。附录A列出了我们使用的基因组数据样本ID。附录B包含我们因子模型的R源代码。附录C包含一些法律术语。2样本协方差矩阵2。1样本数据在许多实际应用中，我们有N个具有可观测性的对象，每个对象的可观测性是通过d个观测值来测量的。结果数据是一个N×d矩阵，称之为Ris，其中的行对应于i=1，N、这些列对应于标有bys=1，d、一般来说，Ris中可能存在一些缺失的观察结果，即NAs。然而，出于我们的目的，这里只能假设没有NAs。以下是这些数据的一些例子。在财务方面，我们有N支股票，d个交易日，我们测量每日股票收益率。或者，例如，我标注了美国的大城市（或者邮政编码），s标注了年份，以及Risis暴力犯罪率percapita。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-5-11 06:26:20

在本文的上下文中，我们有N=96突变类型发生各种类型的癌症，d是收集样本的数量，Risis（相关–见下文）是样本s中突变类型i的发生计数。2.2序列协方差和相关性我们可以将矩阵Risas N序列视为d=M+1观察值。样本协方差矩阵（SCM）定义为成对序列的N×N矩阵。交易日指股票市场开放的一天。例如，所谓的收盘回报率，即从昨天收盘价到今天收盘价的回报率。该回报可定义为Ris=Pis/Pi（s+1）- 1或Ris=ln（Pis/Pi，（s+1））（用于日常回报，通常为| Ris | 1，所以这两个定义之间的差异很大）。进一步的细节是，收盘价Pis，Pi，（s+1）针对任何分割和股息进行了充分调整。我们交替使用“突变类型”和“突变类别”。在我们上面的财务示例中，s标签日期在N个时间序列中。更一般地说，风险行不一定是时间序列。例如，在癌症突变的背景下，我们正在处理一系列样本（不涉及时间或年代）。在下面的内容中，我们将在一般上下文中使用调整的“序列”（无论是日期、样本等），不一定用于时间序列。协方差：Cij=MM+1Xs=1XisXjs（1），其中Xis=Ris- 里亚尔连续降级的数量：里亚尔=M+1PM+1s=1Ris。SCM包含关于表征N个对象的数量的重要信息，即：i）序列方差Cii=σi，用于测量序列方差；以及ii）不同系列（I6=j）之间的系列成对相关性ψij。这里，ψij=σiσjCij=MM+1Xs=1YisYjs（2）是样本相关矩阵，而Yis=Xis/σi。注意，ψii≡ 1.当M<N时，Cijis是单数的：我们有pm+1s=1Xis=0，所以矩阵xis中只有M列是线性独立的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-5-11 06:26:23

让我们去掉最后一列：Xi，M+1=-PMs=1Xis。然后我们可以通过前M列来表示Cij：Cij=MXs，s=1XisφssXjs（3）这里φss=（δss+usus）/M是非奇异的M×M矩阵（s，s=1，…，M）；我们≡ 1是单位M向量。注意，φssis是一个单因素模型（见下文）。类似地，ψij=MXs，s=1YisφssYjs（4）2.3样本外（In）稳定性假设我们基于一组——称之为集合a——的d观测值计算SCM。假设现在我们根据一个不同的集合（称为集合B）计算SCM，集合a和集合B是不重叠的。通常，除非 N、这两种计算中SCM的对角线元素可能有很大的不同。这被称为样本相关性的样本外不稳定性。另一方面，样本方差在样本外往往更稳定，在许多情况下，即使M N.考虑这一点的一种方法是，注意cii=MPM+1s=1Xis，因此，如果连续减少的量xis（准）正态分布在每个系列和M中 1，那么CII应该是相对稳定的。Cij的整体标准化，即（1）分母中的M（无偏估计）与M+1（最大似然估计），对于我们这里的目的来说并不重要。在许多情况下，M 1.这种说法通常被认为来自经验证据。然而，这在理论上是很好理解的。我们总是可以将连续降级的收益率旋转到正交的基础上，并重新调整它们的比例，使其具有单位序列方差。那么真正的协方差矩阵就是N×N矩阵。根据白音定理[Bai and Yin，1993]，SCM的最小和最大特征值的极限为λmin=（1）-√y） λmax=（1）+√y），其中y=N/M是固定的，N，M→ ∞.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-5-11 06:26:27

所以对于M，N 1.我们一定要有我 N对于所有特征值接近1.2.4相关性，而不是协方差，在涉及SCM的许多应用中，它必须是可逆的，而且是样本外稳定的。如上所述，在许多情况下，SCM不满足这些要求，可以用构造的矩阵来代替它，从而使其更加精确和稳定。然而，在实践中，建模样本相关矩阵ψij而不是Cij是很方便的，原因有二。首先，由于样本方差相对稳定且易于计算，因此无需对其建模；需要建模的是成对关联ψij（i6=j）。第二，在许多情况下，样本方差具有扭曲的横截面（例如，（准）对数正态）分布，正值量的情况通常如此。因此，将σiout作为SCM的因子是很方便的，即使用样本相关矩阵ψij=Cij/σiσj。其对角线元素非常均匀（ψii）≡ 1），和theo fff-对角线元素ψij（i6=j）取值(-1，1）分布紧密。我们可以将ψij视为归一化数量eris=Ris/σi的样本协方差矩阵，即ψij=Cov（eRi，eRj）=Cor（Ri，Rj）。因此，在接下来的内容中，我们将始终使用ψijandeRis，SCM将参考样本相关矩阵ψij。三因子模型因子模型是构造ψij的非奇异替换Γij的常用方法：Γij=ξiδij+KXA，B=1OhmiAΦABOhm这里的jB（5）：ξ是特定（又称特质）方差；OhmIa是一个N×K因子载荷矩阵；ΦABis是K×K因子协方差矩阵（FCM），a，B=1，K.系数K的数量 N使FCM比SCM更稳定。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-5-11 06:26:31

也就是说，SCM的对角元素（即成对相关性ψij，i6=j）是通过K因子fAs的贡献来建模的，而SCM的对角元素（即ψii≡ 1）从因子和纯对角线特定方差ξi中获得贡献。这对应于通过矩阵Υissuch建模：Υis=χis+KXA=1OhmiAfAs（6）Cov（χi，χj）=ξiδij（7）Cov（χi，fA）=0（8）Cov（fA，fB）=ΦAB（9）Cov（Υi，Υj）=Γij（10）这是必需的，例如，在金融方面，在股票投资组合优化的背景下，包括均值方差优化[Markowitz，1952]，夏普比率最大化[Sharpe，1994]等。在本文中，“横截面”指“指数i”。如上所述，Cov（·，·）是序列协方差。Γiji的一个很好的特点是，如果FCM是正定义的，则它是正定义的（因此是可逆的），假设所有ξi>0。我们可以把（6）看作分解的近似值，即is=εis+KXA=1OhmiAfAs（11），其中，假设Byeris是一个N×d矩阵，基本上由线性标记因子模型描述，Fas是因子。然后ε对应于“误差”项，即与线性因子模型的偏差。注意，通常ε为6=χ为。因此，通常矩阵Cov（εi，εj）不是对角的，协方差Cov（εi，fA）也不会消失。然而，近似ERISVIAΥisis是有用的，因为构建供应链的因素模型（5）涉及定义OhmiA，然后我们可以使用它来进一步计算因子fAs，例如通过最小二乘法，即通过最小化“二次误差”PNi=1εis→ 最小值。根据定义，这相当于风险的横截面线性回归OhmiA（不含截距），其中Fis是回归系数，而ε是回归残差。所以，我们需要构造Γij。3.1“二进制”和“模拟”因子为了构建因子模型，我们需要定义因子负荷Ohm伊莉亚。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-5-11 06:26:34

在分解（11）的上下文中OhmIak只是解释变量。问题是如何挑选它们。这不是一个反问句。因此，假设我们可以通过二进制分类法对N个对象进行分类，即每个对象都属于一个且仅属于一个“集群”。如果objectscan基于一些相似性标准被分组为“集群”，这可能是可能的。例如，在股票的情况下，可以将其分为部门、行业、子行业等。如果可以进行此类分组，那么我们可以将解释变量作为OhmiA=δS（i），A，其中S将我们的N个对象映射到K个“簇”：S:{1，…，N}→ {1，…，K}。即。，OhmiA=1，如果i标记的对象属于A标记的“簇”；否则OhmiA=0。这些“二元”因素基于对象在“集群”中的成员身份。如果无法实现二元分类，那么我们可以尝试使用对象的一些测量或估计属性来填充因子加载的列。我们可以将其称为“模拟”因子，因为它们通常缺乏任何“二元”或“聚类”结构，并表征了N个对象的整个横截面。例如，在股票的情况下，此类“模拟”因素可以基于公司的规模（市值）、收益、账面价值等。即使可以定义一些“模拟”因素，它们可能并不总是很好的解释变量[Kakushadzeand Yu，2016a]，因此在尝试将其用作Ohm伊莉亚。为了便于注释，我们省略了序列协方差Cov（·，·）中的指数s。为将军Ohmi有一些微妙之处需要对回归进行非平凡的修改——详见[Kakushadze and Yu，2016a]。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-5-11 06:26:39

就我们的目的而言，这种微妙之处并不存在。就股票而言，此类“模拟”因素被称为“风格因素”。3.2统计因素模型在许多应用中，上述“二元”和“模拟”因素无法达到或不可靠。在这种情况下，我们可以求助于统计因子模型[Kakushadze和Yu，2016b]。这个想法很简单。我们有数据。如果我们建造Ohm我是基于这些数据而没有其他输入的吗？也就是说，我们必须得到一个N×d矩阵，然后以某种方式将其提取为一个较小的N×K矩阵。问题是K应该是什么？这正是通过（5）中定义的样本相关矩阵ψij的因子模型近似成为有用工具的地方。统计因子模型背后的想法很简单。设V（a）i，a=1，N、形成正交基的ψij的主分量xj=1ψijV（a）j=λ（a）V（a）i（12）NXi=1V（a）iV（b）i=δab（13），使得特征值λ（a）按递减顺序排列：λ（1）>λ（2）>。更准确地说，一些特征值可能是退化的。对于一般（足够大的）数据集，正特征值是非退化的，这一点在下文中并不关键。然而，我们可以有多个零特征值。通常，非方差特征值M的数量，其中，如上所述，d=M+1是每个系列中观测的数量。因此，我们有（假设M<N；否则M被下面的N替换）：ψij=MXa=1V（a）iλ（a）V（a）j（14）。这类似于具有对角因子协方差矩阵的因子模型（5）。然而，缺少具体的差异。这可以通过指出较高的主成分在（14）中贡献较小的权重（即特征值）来纠正。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-5-11 06:26:42

因此，我们可以简单地只保留（14）和中的前K个主成分，其中K<M，并替换掉M的对角线贡献-K通过特定方差得出的更高主成分：Γij=ξiδij+KXA=1λ（A）V（A）iV（A）j（15）ξi=1-KXA=1λ（A）V（A）i（16）如果某些序列是100%成对（反）相关的，这个数字可能会更小。同样，对于通用数据集——这在这里并不重要——情况并非如此。这对应于采用以下形式的因子载荷矩阵和因子协方差矩阵OhmiA=√λ（A）V（A）i，A=1，K（17）ΦAB=δAB（18）这种结构非常简单。然而，K应该是什么？[Kakushadze and Yu，2016b]中讨论了两种简单的确定K的方法，其中还给出了用于构建统计因子模型的源代码。我们在此简要回顾一下。4固定因子数当K=M时，我们有Γij=ψij（当M<N时为单数）。因此，我们必须有K≤ 那么，什么是Kmax？什么是Kmin（除了现有的Kmin=1）？做复杂而复杂的事情可能很有诱惑力。我们不会在这里这样做。相反，我们将采取务实的做法。[Kakushadze，2015]中提出了一种简单的（“基于最小化”的）算法。我们在下面回顾一下，然后给出了另一个基于eRank（有效秩）的简单算法。4.1“最小化”算法这个想法很简单[Kakushadze，2015]。这是基于这样一个观察结果，即当Kapproaches M时，min（ξi）变为0（即，总方差Γii越来越小）≡ 1归因于特定方差，其中越来越多的归因于非因子），而当K接近0时，最大值（ξi）变为1（即，总方差中越来越少的归因于因子，越来越多的归因于特定方差）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-5-11 06:26:45

因此，我们可以将K定义如下：|g（K）- 1| → min（19）g（K）=qmin（ξi）+qmax（ξi）（20）这种简单的算法在实际金融应用中效果良好，参见[Kakushadze，2015]，[Kakushadze and Yu，2016b]。计算统计因子模型的开源R代码（15）利用这种基于“最小化”的算法来确定因子K的数量，见[Kakushadze and Yu，2016b]的附录A。4.2有效的Rankan另一个简单方法是设置[Kakushadze and Yu，2016b]K=Round（eRank（ψ））（21）这里Round（·可以被floor（·）=b·c代替。这里eRank（Z）是有效的等级[Roy and Vetterli，2007]对称半正定义矩阵Z（我们在这里使用它）。它定义为秩（Z）=exp（H）（22）H=-LXa=1paln（pa）（23）pa=λ（a）PLb=1λ（b）（24），其中λ（a）是Z的L个正特征值，H具有（香农a.k.a.谱）熵的含义[Campbell，1960]，[Yang等人，2005]。eRank（Z）的意思是，它是矩阵Z的有效维数的一种度量，它不一定与其正值的数量L相同，但通常更低。这是因为许多序列可能存在明显的相关性（表现为特征值之间的巨大差距，见下文），从而进一步降低了相关矩阵的有效维数。4.3变量当平均相关ψ=NPNi，j=1ψij较高时，“最小化”算法和基于eRank的算法都可以产生较低的K值（包括1）。这是因为在这种情况下λ（1） 1.第一和第二高价值之间存在巨大差距。为了避免这种情况，我们可以定义K=K+1，其中K是通过矩阵ψij=MXa=2V（a）iλ（a）V（a）j（25）的“最小化”或基于eRank的算法定义的，也就是说，我们只需删除第一个特征对，确定K的相应值，并向其添加1。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-5-11 06:26:49

计算统计因子模型（15）的开源R代码，用于计算“最小化”和基于eRank的算法（无论是否使用基于K的定义），[Kakushadze and Yu，2016b]的附录A中给出了基于K的定义。5癌症特征的应用现在我们准备将上述机制应用于癌症特征。我们的基本数据由一个矩阵组成——称之为Gis——其元素是i=1，N=96在标有s=1的样品中，d、更准确地说，我们可以使用一个矩阵，它结合了不同癌症类型的数据；或者，我们也可以选择使用单个矩阵[G（α）]is，相反，我们可以定义ψ=N（N-1） PNi，j=1；i6=j.因为N 1.这种差异无关紧要。式中：α=1，n标签n不同的癌症类型；如前所述，i=1，N=96；ands=1，d（α）。这里d（α）是用α标记的癌症类型的样本数量。组合矩阵GIS只需将矩阵[G（α）]按列相加即可得到。我们将在下面讨论这种数据结构的一个方面。我们能做的最简单的事情就是在我们与Gis（或[G（α）]is的讨论中识别矩阵RIS。然而，这可能不是最理想的选择。问题是这个。矩阵元素由非负发生计数填充。样本量大的非负量往往具有高值长尾的偏态分布。也就是说，这种分布不是正态分布，但（在许多情况下）大致为对数正态分布。解决这个问题的一个简单方法是用地理信息系统（而不是地理信息系统本身）的（自然）对数来识别风险。这里的一个小问题是，GIS的某些元素可能是0。我们可以做很多复杂甚至复杂的事情来处理这个问题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-5-11 06:26:53

在这里，我们将遵循一种务实的方法，做一些简单的事情——数据中有太多噪音，否则做根本不起作用。因此，我们将简单地采用ris=ln（1+Gis）（26）这将处理Gis=0的情况；地理信息系统 1.我们有Ris≈ ln（地理信息系统），根据需要。现在，我们可以使用“最小化”和基于eRank的方法（有或没有基于Kb的变异）来构建癌症特征的统计因子模型，以确定癌症特征的数量K。事实上，为了实现复杂性和比较性的目的，下面我们将构建这样的因子模型，如Mumingboth（26）和Ris=Gis。令人高兴的是，结果在质量上是相似的。6实证结果6。1数据摘要在下面的实证分析中，我们仅使用已发表样本的基因组数据。表2中总结了这些数据，我们给出了总计数、样本数量和数据来源，如下所示：A1=[Alexandrov等人，2013b]，A2=[Love等人，2012]，B1=[Tirode等人，2014]，C1=[Zhang等人，2013]，D1=[NikZainal等人，2012]，E1=[Puente等人，2011]，E2=[Puente等人，2015]，F1=[Chenget等人，2016]，G1=[Wang等人，2014]，H1=[Sung等人，2012]，H2=[Fujimoto等人，2016]，I1=[Imielinksi等人，2012]，J1=[Jones等人，2012]，K1=[Patch等人，2015]，L1=[Waddell等人，2015]，M1=[Gundem等人，2015]，N1=[Scelo等人，2014]。附录A.6.2基因组数据结果在我们的基因组数据集中，我们有14种癌症类型。使用定义（26），我们采用“最小化”和基于eRank的方法（有无KBase）。以下讨论的重点是Gisand，除非另有说明，否则也适用于[G（α）]is。变异）用于确定癌症特征的数量。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-5-11 06:26:56

我们使用R函数bio。埃朗克。pc（）和bio。乔夫。附录B中的pc（），其改编自[Kakushadze and Yu，2016b]的附录A。结果总结在表3中。除非我们使用基于K的变量，否则K的值往往很低。如果我们将所有14种癌症类型的样本组合成一个“大”矩阵（在我们的例子中，尺寸为96×1389），那么基于eRank的方法得到K=2，基于“最小化”的方法得到K=1（无基于kb的变化）。如果我们将每种癌症类型内的所有样本汇总并在生成的96×14矩阵上运行，这些方法都会产生K=1。问题是，为什么会这样？答案很平淡。表4提供了平均成对相关性ψ（见脚注26）和样本相关矩阵ψij的前5个特征值。除了脑低级别胶质瘤、食管癌和胰腺癌（对于这些癌症类型，矩阵GIS中稀疏地填充着许多0），这些平均相关性相当高，并且与较高特征值之间存在很大差距。因此，第一个特征向量在光谱分解中占主导地位（14）。通过基于K的变异将其排除在外，则会产生较高的K值。然而，在一般情况下，我们预计较高的主成分在样本外不稳定。也就是说，如果我们基于两个或多个非重叠样本集来计算它们，就不能保证它们在不同的样本集之间是稳定的。因此，我们必须首先解决样本稳定性问题。6.2.1样本外（In）稳定性解决这一问题的一种便捷方法是检查每种癌症类型计算的第一个和更高的主要成分在不同癌症类型之间是否稳定。如上所述，设[G（α）]是用α标记的癌症类型的发生计数矩阵（对于我们的基因组数据，α取14个值）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-5-11 06:26:59

然后我们计算相应的矩阵[R（α）]isvia（26）和相关矩阵[ψ（α）]ij。设[V（α）]（a）ibe为[ψ（α）]ij的第a主成分。然后，我们通过定义E（a）αα，定义了一个非常具有信息性的内积矩阵se（a）αβ=NXi=1[V（α）]（a）i[V（β）]（a）i（27）≡ 和| E（a）αβ|<1表示α6=β。这个矩阵可以被认为是衡量不同癌症类型之间第a主成分“相关”程度的一个指标。表5给出了a=1、2、3和α6=β的| E（a）αβ的总结（每个a有14×13/2=91个独立值）。为了便于说明，在第四行中，我们还总结了基于第二和第三主成分的内积的类似矩阵。从表5可以明显看出，从一种癌症类型到另一种癌症，第一个主成分非常稳定。然而，较高的主成分似乎相当不稳定。在本综述中，计算矩阵E（a）αβ的eRank（使用bio中的calc.eRank（）子函数）是有用的。埃朗克。pc（）函数，见附录B）。对于每个a，这是衡量14种癌症类型的主成分[V（α）]（a）相互独立程度的指标：eRank越低，它们的独立性越低，从一种癌症类型到另一种癌症类型的稳定性越高。因此，对于Ea=eRank（E（a）αβ），我们得到E=1.31，E=9.49，E=10.59，和E2+3=15.54，其中E2+3基于上述第二和第三主成分的并集。基于上述情况，高主成分似乎是高度不稳定的。不同的是，一种癌症类型的高主成分（比第一种）显然对其他癌症类型的预测能力很小。6.2.2“总体”模式第一个主成分从一种癌症类型到另一种癌症类型高度稳定。表5中E（1）αβ的值大多在90%以上。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-5-11 06:27:03

这意味着我们有一个重要的“整体”模式。在金融方面，类似于这一模式的是所谓的“市场”模式，对应于大市场的整体运动，它影响所有股票（不同程度）——流入（流出）市场的现金倾向于推动股价上涨（下跌）。这是市场风险因素。为了缓解这一风险因素，例如，可以持有一个美元中性的股票组合（即对于多头和空头仓位的samedollar控股）。我们可以从这个类比中得出结论。我们可以把“整体”模式想成如下。我们总是可以把样本相关矩阵写成ψij=（1）- ρ） δij+ρuiuj+ij=ψij+ij（28）这里ρ=N（N-1） PNi，j=1；i6=jψij是平均成对相关性，ui≡ 1是单位N向量，Pni，j=1ij=0。在第零近似下，我们可以ij，即ψij≈ ψij。注意，ψij是一个单因子模型。其第一个主要组成部分u（1）i=ui/√N.它描述了“整体”模式，即所有突变类型的平均相关性。这意味着在第零近似下V（1）i≈ 当N很大时，在许多系统中，这实际上是一个很好的近似值。在我们的例子中，N=96，所以它足够大。表6给出了该项目的横截面总结|√NV（1）i-1 |（假设V（1）i被归一化，使得pni=1V（1）i>0）。这表明V（1）i≈ U（1）iis确实是一个非常好的近似值，毫不奇怪，我们的总出现次数越多，这个近似值就越好。6.2.3分解“整体”模式“整体”模式清楚地存在于所有癌症类型中。因此，在对数据进行任何分析之前，将其全部考虑在内是有意义的。需要明确的是，这并不意味着在每种癌症类型中都有较高的主成分不在样本范围内。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-5-11 06:27:06

我们将在下面回到这个问题。例如，参见[Bouchaud and Potters，2011]及其参考文献。注意，ψij的特征值对应于U（1）iisλ*= 1+ρ（N）- 1).排除“整体”模式只会在横截面上贬低矩阵Ris，即，而不是Riswe useRis=Ris- Rs=Ris-NNXj=1Rjs（29）表7和表8给出了结果。单个癌症类型的样本相关矩阵[ψ（α）]ij的第一主成分之间成对内积的绝对值（以1%为单位）汇总如下：最小值=0.122，第一个Qu.=10.95，中位数=27.06，平均值=30.83，第三个Qu.=42.86，最大值=90.74，标准差=22.89，MAD=23.55，和E=7.06。这些结果让我们得出以下重要结论：除了“整体”模式之外，这14种癌症类型似乎有共同的特征。值E=7.06表明这些签名的数量K应该大约为7。这与表7最后一行的值一致。然而，表8清楚地表明，我们在第一个特征值和更高的特征值之间不再有很大的差距，因此更高的主成分在很大程度上起作用，很难期望样本外的稳定性。6.2.4无日志迄今为止，我们一直在使用基于日志的定义（26）。现在让我们检查一下，如果我们使用Ris=GIS定义，会发生什么。结果见表9和表10。总体而言，平均相关系数降低，K值增加。单个癌症类型的样本相关矩阵[ψ（α）]ij的第一个主成分之间成对内积的绝对值（单位为1%）的汇总如下：Min=71.37，1st Qu.=83.86，Median=96.53，Mean=92.05，3rd Qu.=97.95，Max=99.59，StDev=8.023，MAD=2.934，andE=1.46。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-5-11 06:27:09

这些结果表明，基于对数的定义（26）确实更有效，正如我们根据计数分布的扭曲性质所预期的那样。6.2.5没有考虑到“整体”模式的日志为了完整性，让我们也看看如果我们使用Ris=GIS定义并通过横截面贬低定义的Ris来考虑到“整体”模式会发生什么。结果见表11和表12。单个癌症类型的样本相关矩阵[ψ（α）]ij的第一个主要成分之间成对内积的绝对值（单位为1%）的总结如下：最小值=0.960，第一个Qu.=31.80，中位数=44.93，平均值=45.67，第三个Qu.=59.74，最大值=86.75，标准偏差=20.84，和E=5.61。这些结果表明，在并没有日志定义的情况下，我们捕获的独立签名更少。这并不奇怪——计数分布的扭曲性质掩盖了潜在的特征。一种方法是，尽管去掉了“整体”模式，但对于几种癌症类型，表12中仍然存在相当大的平均相关性。7.非负矩阵分解7。1首先，使用统计因子模型方法的乘法模型允许我们：i）乘以因子的数量k；以及ii）移除“整体”模式。通过基于eRank的方法预测的排除“整体”模式的因素数量与通过第6.2.3小节获得的结果一致。然而，先验的统计因子模型方法似乎缺乏生物学解释。如果我们直接将其应用于无日志定义RIS=Gis（不考虑“总体”模式），矩阵OhmIa和Fas通常都有负面因素。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-5-11 06:27:13

如果我们将其应用于基于对数的定义（26），那么我们可以通过（回想一下，σi是样本方差，而factormodel是相关矩阵，这就是为什么σi出现在指数中）bGis=expσiεis+σiKXA=1来重新指数化（11）OhmiAFAs！=γisKYA=1（ZAs）νiA（30），其中γis=exp（σiεis），ZAs=exp（FAs）和νiA=σiOhm伊莉亚。因此，暂时忽略“乘法误差”项γis，BGI提供了矩阵1+Gis的正分解，除了它是乘法分解（与NMF中的加法分解相反）。所以，这里不是“权重”，而是“曝光”ZA的幂。事实上，这样的乘法模型可能不会太牵强。DNA内部的过程似乎有“指数”趋势。我们打算在即将发表的论文中更详细地讨论这种方法。取而代之的是，我们将把从分解“整体”模式中得到的改进应用到NMF中。7.2 NMF：香草计数矩阵从Gis中提取癌症特征的常用方法[Alexandrov等人，2013a]是通过非负矩阵分解（NMF）[Paatero和Tapper，1994]，[Lee和Seung，1999]。在NMF下，矩阵G近似为viaG≈ 其中WiAis是N×K矩阵，has是K×d矩阵，W和H都是非负的。NMF的吸引力在于其生物学解释，即矩阵W的K列被解释为K癌信号对N=96突变类别的贡献权重，矩阵H的列被解释为每个样本中K信号的暴露。通常，NMF要么应用于单个癌症类型，要么应用于通过组合所有癌症类型的样本而获得的“大矩阵”。在这里，我们以一种新的方式将NMF应用于通过按癌症类型聚合样本而获得的96×14矩阵。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-5-11 06:27:16

这种方法的优点是，我们可以包含低计数样本。从技术上讲，我们应该减去定义中日志中添加的1（26）。然后我们必须处理负值。这将模糊我们在这里的讨论，没有任何益处，也不会破坏结果（样本中）的稳定性，这样我们还可以避免样本数量大时可能出现的不希望出现的签名扩散。我们使用有机R代码来运行NMF（并检查它是否产生与R包“NMF”相同的结果），https://cran.r-project.org/package=NMF).我们使用随机启动的W和H为每个“采样”运行100个“采样”的NMF。图3给出了香草基质G和重构基质G之间的皮尔逊相关性*= W H代表5到9个签名。对于K=8的特征码，可以达到最高的重建精度，这是我们在上面对普通矩阵（K=7加上“整体”模式）的预期。图4-11描绘了8个签名。对于每个特征，W列（96个突变类别中的每一个）中的相应权重是100个“抽样”的平均值，误差条是标准偏差。我们将在下面讨论签名的解释。这里我们注意到，香草矩阵的误差条非常大。此外，签名8在大多数癌症类型中都有大量存在。这是“整体”模式下的最大噪音。图12总结了签名贡献。7.3 NMF：“整体”模式被分解。现在，我们使用“整体”模式被分解的数据，重复上一小节的NMF程序。为此，我们简单地对列式降阶矩阵Ris进行指数化，即取egis=exp（Ris）（31）并运行NMF oneGis。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-5-11 06:27:19

我们可以通过采用EGIS=exp（平均值（Ris）+Ris）、oreGis=exp（中值（Ris）+Ris）、oreGis=exp（中值（Rs）+Ris）（回想一下，RSI是Ris的列平均值的向量）等进行整体归一化，使其看起来更像原始矩阵Gis，然而，这并不影响通过NMF提取的特征。再次，从技术上讲，在重新指数化后，我们应该减去定义（26）中增加的额外1（假设我们包括上述所有标准化之一）。然而，这似乎对结果影响不大。图13给出了香草基质G和由此构建的基质G之间的皮尔逊相关性*= W H代表4到8个签名。K=7签名的重建精度最高，这是我们在上文中预期的。图14-20绘制了7个特征，错误条是100次“抽样”后每个突变类别的标准偏差。这里我们注意到，“去噪”矩阵G（图14-20）的误差条比普通矩阵G（图4-11）的误差条小得多，这是因为考虑了“整体”模式。这种无处不在的签名通常会降低它们的实用性。每次“采样”都会找到一个局部最优值——NMF不能保证全局收敛。该范围基于表3和表7最后一行中的K值。我们使用k-means聚类对100个“样本”中的结果签名进行排序。这是因为W的每一列都是权重，将其归一化为1。图21总结了签名贡献。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-5-11 06:27:22

我们的特征码1-4是之前已知的特征码，即[Nik Zainal等人，2012]的突变特征码1（自发胞嘧啶脱氨）、2+13（APOBEC介导的胞嘧啶脱氨）、4（与烟草致癌相关的暴露）和17（出现在食道癌、乳腺癌、肝癌、肺腺癌、B细胞淋巴瘤、胃癌和黑色素瘤中；突变过程未知），[Alexandrov等人，2013b]。我们的签名5-7是新的。新的信号5在肝癌中占主导地位（贡献率超过96%），几乎没有峰值变异性。新的特征6到一个较低的去卵巢化肾细胞癌（贡献超过70%）。新的信号7主要出现在骨癌、脑低级别胶质瘤和髓母细胞瘤（以及其他5种程度较轻的癌症）。超显性肝癌的特征令人兴奋。表13和14给出了7个签名的权重和误差。8结束语o样品外（内）稳定性。这是任何基于统计的方法（包括NMF）的症结所在。通常，“稳定性”是通过扰动矩阵G并检查签名是否稳定来解决的。然而，这并不能解决样本外稳定性问题。样本外稳定性是众所周知的，是定量交易中的关键。由于有一个模型涉及时间序列和预测，如果给定的模型缺乏样本外稳定性，它几乎是无用的。这是因为时间只向一个方向流动，如果使用基于过去某个时间段计算的参数建立的模型在未来某个时间段（即样本外）表现不佳，则该模型没有预测（即预测）能力。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群