*癌症特征的K-均值和聚类模型

2022-5-31 05:26:08

在治疗上，如果不同癌症类型之间存在共同的基础结构，那么一种癌症类型的治疗方法可能适用于其他癌症，这将是一个巨大的新闻。然而，这一切归结为有用性的问题，也就是说，在所有（100多个）已知癌症类型的基础上，是否有足够少的癌症特征，或者这个数字太大而没有意义或有用？事实上，只有96个SNV，所以我们不能有超过96个签名。即使真正的底层签名的数量是，比如说，50阶，也不清楚它们是否有用，特别是在实际应用中。另一方面，如果只有十几个或更可靠的特征，那么我们可以希望简化一个数量级。为了确定突变特征，我们分析了一组DNA测序的全癌症基因组中的SNV模式。数据被组织到矩阵Gis中，其中行对应于N=96个突变类别，列对应于d个样本，每个元素是给定样本中给定突变类别的非负出现计数。目前，从Gis中提取癌症特征的公认方法【Alexandrov等人，2013a】是通过非负矩阵分解（NMF）[Paatero和Tapper，1994年]，【Lee和Seung，1999年】。在NMF下，矩阵G通过G近似≈ 其中WiAis是N×Kmatrix，has是K×d矩阵，W和H都是非负的。NMF的出现是其生物学解释，其中矩阵W的K列是另一个实际应用，通过将从癌症样本中提取的特征与已知致癌物（如烟草、毒素、紫外线辐射等）引起的特征配对来预防。简言之，DNA是由两条链组成的双螺旋，每条链是一串字母a、C、G、T，分别对应腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 05:26:12

在双螺旋中，一条链中的A总是与另一条链中的T结合，而G总是与C结合。这就是已知的碱基互补性。因此，有六种可能的碱基突变C>A、C>G、C>T、T>A、T>C、T>G，而其他六种碱基突变通过碱基互补性与这些碱基突变相当。这6个可能的碱基突变中的每一个都由每个侧的4个可能碱基组成，从而产生4×6×4=96个不同的突变类别。非线性可能会破坏这一论点。然而，这一切又归结为有用性。解释为K癌症特征码贡献到96个突变类别的权重，矩阵H的列解释为每个样本中K特征码的暴露。为此付出的代价是，NMF是一个迭代过程，计算成本很高，根据样本数d，运行它可能需要几天甚至几周的时间。此外，它不会自动确定签名K的数量，签名K必须是猜测或通过试错获得的，从而进一步增加了计算成本。上述一些问题最近在【Kakushadze和Yu，2016b】中得到了解决，也就是说：i）通过按癌症类型聚合样本，我们可以大大提高稳定性并减少签名数量；ii）通过识别和分解体细胞突变噪声或“整体”模式（这是【Kakushadze和Yu，2016b】的“去噪”程序），我们可以进一步大大提高稳定性，并作为奖励，降低计算成本；和iii）通过计算癌症类型或样本的相关矩阵ψij的有效秩（或eRank）[Roy和Vetterli，2007]，可以通过定量金融中统计风险模型的方法【Kakushadze和Yu，2017b】来实现签名的数量（见下文）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 05:26:15

所有这些都带来了实质性的改善【Kakushadze和Yu，2016b】。在本文中，我们将该计划推向另一个层次。这里的基本思想非常简单（但事实证明，实现起来并不重要——见下文）。我们希望将聚类技术应用于提取癌症特征的问题。事实上，我们在第2节中指出，NMF在某种程度上是“伪装的集群”。这有两个主要原因。平淡无奇的原因是，NMF作为一种不确定性算法，需要对其产生的许多局部最优值进行平均。然而，每个梯级通常会生成一个权重矩阵WIA，其列（即签名）与其他运行中的列（即签名）不对齐。在不同的运行中对齐或匹配签名（在对其进行平均之前），通常通过不确定性聚类（如k-均值）来实现。因此，不仅在某一层使用了聚类，即使在平均之后，结果通常也是有噪声和不确定性的！一、例如，如果在相同的数据上反复运行这个计算代价高昂的程序（包括平均值），通常每次都会产生不同的癌症特征！第二个不那么平淡无奇的原因是，虽然NMF通常不会生成完全为空的权重，但它确实会生成较低的权重，因此它们具有错误的条。出于所有实际目的，我们不妨将这些权重设置为零。NMF需要非负权重。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

2022-5-31 05:26:18

然而，我们可以合理地要求权重应在误差线之外（例如，高于一个标准偏差–其他问题包括：i）样本外不稳定性，即从非重叠样本集获得的签名可能会显著不同；ii）样本不稳定性，即签名可能对初始迭代选择有很强的依赖性；和iii）计数较低或样本数量稀少的样本（即具有许多零的样本–此类样本无处不在，例如不精确数据）通常被认为没有太大用处，因为它们会导致样本内不稳定。因此，现在我们有了这样的聚合矩阵Gis，其中s=1，d、 d=n是癌症类型的数量，而不是样本的数量。该矩阵比样本数据噪音小得多。“噪声”是指通过平均获得的权重中的统计误差。通常，癌症特征文献中未报告此类误差条。通常它们很大。这将导致算法高度递归，可能不稳定或计算成本太高）或高于某个最小阈值（这将与复杂的NMF一样更加复杂），或者将不符合要求的权重设置为零。当我们增加这个最小阈值时，矩阵将开始有越来越多的零。它可能并不完全具有二元类簇结构，但它可能至少具有一些类簇的子结构。这就引出了一个问题：WiAor中是否存在簇状（子）结构，通常是癌症特征？为了回答这个问题，我们可以将聚类方法直接应用于matrixGis，或者更准确地说，应用于其去噪版本的Gis（见下文）[Kakushadze and Yu，2016b]。简单地对Gisor进行集群的天真、暴力的方法由于各种原因都不起作用，有些方法比其他方法更重要或更微妙。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-5-31 05:26:21

因此，例如，如【Kakushadze和Yu，2016b】所述，计数具有倾斜的长尾分布，人们应该使用对数计数，或者更准确地说，使用其去噪版本。这也适用于集群。此外，在【Kakushadze和Yu，2016c】中讨论了quantitativetrading的背景下，对去噪日志计数进行聚类是次优的。相反，它需要对它们的规范化变体进行聚类（参见本文第2节）。然而，关注这些细微之处并不能缓解一个大问题：不确定性！如果我们在数据上运行avanilla非确定性算法，例如k-means，不管用什么样的方法处理数据，每次运行k-means时，我们都会得到随机的、看起来完全不同的结果，而看不到稳定性。我们需要解决不确定性问题！我们对这个问题的解决方案是我们称之为“K”的意思。基本上实现了统计学上的决定论的*Kmeans背后的想法很简单。假设我们有一个N×d矩阵Xis，也就是说，我们有N个d向量Xi。如果我们用输入的聚类数k运行k-means，但最初没有指定的中心，每次运行通常会产生一个新的局部最优值*K-means通过两个层次减少并实际上基本上消除了这种不确定性。在第1级，它需要通过Mindependent运行或采样获得聚类。每次采样产生一个二进制N×K矩阵OhmiA，如果Xibelongs到由A标记的集群，则其元素等于1，否则为0。【Kakushadzeand Yu，2016c】中给出了聚合算法及其源代码。由于与NMF中相同的原因（见上文），这种聚合涉及在M次运行中对齐集群，这是通过k均值实现的，因此结果是不确定的。然而，通过聚合大量M个采样，可以大大降低不确定性的程度。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 05:26:24

“陷阱”是，有时这种聚合会产生K<K个集群的集群，但这并不构成问题。因此，在第2级，我们对这样的聚合进行了大量的P（每个聚合基于M个抽样）。聚集群集的出现计数并不均匀，但通常在少数（或可管理的）聚集群集周围具有（急剧）峰值分布。因此，通过这种方式，我们可以确定“最终”聚类，即具有高发生率计数的聚合聚类。这是K-means的要点，它对基因组数据很有效。确定性（如凝聚层次）算法有其自身的问题（见下文）。因此，我们对【Kakushadze和Yu，2016b】中相同的基因组数据应用*K-均值，包括1389个（已发表）样本，涉及14种癌症类型（见下文）。我们的目标聚类数是7，这是在[Kakushadze和Yu，2016b]中使用基于eRank的算法获得的（见上文）。我们将1000个样本聚合到集群中，并构建了150000个这样的聚合集群（即，我们有1.5亿个k-means实例）。我们确实找到了包含7个集群的“终极”集群。一旦聚类确定，结果表明，可以通过线性回归（使用一些钟声和哨声）计算聚类内的权重，并且权重自动为正。也就是说，我们根本不需要NMF！一旦我们有了聚类和权重，我们就可以研究重建精度以及基础数据和聚类模型生成的已确定数据之间的聚类内相关性。我们发现，在我们研究的14种癌症类型中，有10种可以很好地进行聚类。对于肝癌、肺癌和肾细胞癌而言，聚类似乎并不那么有效。此外，7个集群中有5个集群出现80%以上的集群内相关性。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-5-31 05:26:27

此外，值得注意的是，一个聚类对9种癌症类型的聚类相关性较高，另一个聚类对6种癌症类型的聚类相关性较高。这些似乎是主要的集群。在14种癌症类型中，有11种癌症与包容性高相关。那么这一切意味着什么呢？通过观察【Kakushadze和Yu，2016b】中提取的信号Sig1到Sig7与我们的聚类之间的聚类内相关性，可以提供更多的见解。Sig1、Sig2、Sig4和Sig7的簇内相关性很高，它们正是具有“峰值”（或“尖峰”–“高山景观”）的特征，而Sig3、Sig5和Sig6没有此类“峰值”（“fl at”或“rollinghills景观”）；参见【Kakushadze和Yu，2016b】的图14至图20。后3个签名根本没有类簇结构。看看[Kakushadze和Yu，2016b]中的图21，很明显为什么聚类不能很好地治疗肝癌——Sig5的贡献率高达96%！同样，肾细胞癌有70%来自Sig6。肺癌以Sig3为主，因此没有簇状结构。因此，肝癌、肺癌和肾细胞癌与其他癌症（以及彼此）几乎没有共同之处！然而，其他11种癌症，即B细胞淋巴瘤、骨癌、脑低级别胶质瘤、乳腺癌、慢性淋巴细胞白血病、食管癌、胃癌、髓母细胞瘤、卵巢癌、胰腺癌和前列腺癌，有5种（其中2种）簇状结构基本上嵌入其中。在第2节中，我们i）讨论了为什么应用聚类算法提取癌症信号是有意义的，ii）认为NMF在某种程度上是“伪装的聚类”，以及iii）给出了通过*K-均值构建聚类模型的机制，包括各种细节，如聚类内容、如何确定聚类数量等。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-5-31 05:26:30

第3节我们讨论了i）我们使用的癌症基因组数据，ii）我们对*K-均值的应用，以及iii）我们的实证结果的解释。第4节包含一些总结，包括对*K-均值在定量金融中的潜在应用的讨论，其中我们概述了*K-均值可能有用的一些具体问题。附录A包含*K-means和集群模型的R源代码。2聚类模型本文的主要目的是介绍一种利用聚类方法识别癌症特征的新方法。事实上，正如我们下面详细讨论的，我们的方法不仅仅是集群。事实上，从get-Got可以明显看出，盲目使用非确定性聚类算法（通常会产生（难以管理的）大量局部最优解）会给最终的癌症特征带来很大的变化。另一方面，确定性算法（如凝聚层次聚类）通常（实质上）较慢，并且需要基本上“猜测”初始聚类，这在实际应用中往往是次优的。因此，为了激励和解释我们采用聚类方法的新方法，我们首先可以说“分解”了NMF方法，并认为它实际上是一种伪装的聚类方法！2.1“分解”NMF当前的“lore”-从发生计数矩阵Gis（见上文）[Alexandrov等人，2013a]中提取K癌症特征的普遍接受的方法-是通过非负矩阵分解（NMF）[Paatero和Tapper，1994年]，[Lee和Seung，1999年]。在NMF下，矩阵G通过G近似≈ W H，其中W是权重的N×K矩阵，Has是曝光的K×d矩阵，Wand H均为非负。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 05:26:33

然而，签名K的数量不仅不是NMF（必须猜测或通过试错获得），NMF也是一种非确定性算法，通常会产生大量的局部最优解。因此，在实践中，人们别无选择，只能执行大量的NSF运行（我们称之为抽样），然后以某种方式从这些抽样中提取癌症特征。在没有猜测K应该是什么的情况下，对K的一系列值（比如Kmin）执行nssamplings≤ K≤ Kmax，其中Kmin和Kmax基本上是基于一些合理的直觉考虑进行猜测的），对于每个K提取扫描者签名（见下文），然后选择K和具有最佳总体特征的对应签名到基础矩阵G中。对于给定的K，不同的采样通常产生不同的权重矩阵W。所以，要为K的每个值提取一个矩阵w，就要对样本进行平均。然而，在平均之前，必须在不同样本中匹配K癌症特征——事实上，在agiven样本X中，矩阵WiAare中的列不一定与K均值对齐【Steinhaus，1957】，【Lloyd，1957】，【Forgy，1965】，【MacQueen，1967】，【Hartigan，1975】，【Hartigan and Wong，1979】，【Lloyd，1982】。正如我们下面讨论的，在这方面，NMF没有什么不同。E、 g.、SLINK【Sibson，1973】等（例如，参见【Murtagh and Contreras，2011】、【Kakushadze and Yu，2016c】以及其中的参考文献）。E、例如，将数据拆分为两个初始集群。例如，定量交易，可以客观衡量样本外的绩效。经验证据表明，只要深思熟虑地使用非确定性算法，这种确定性算法的性能就会不佳【Kakushadze和Yu，2016c】。矩阵中的列为不同的采样Y。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 05:26:36

为了在NSSampling中对齐矩阵W中的列，once经常使用聚类算法，如k-means。然而，由于k-means是不确定的，因此Wcolumns的这种对齐不能保证——事实上也不能——产生唯一的答案。在这里，可以尝试对该对齐运行多个k-means采样并将其聚合，尽管这种聚合本身需要另一个级别的对齐（使用其自身的不确定性聚类，如k-means）。一个人可以做到这一点。在实践中，必须在某种程度上打破这条链，即通过随机（基本上通过启发式观察有效稳定性和“收敛”）或通过使用确定性算法（见fn.16）。不管怎样，所有这些总是（公开或隐蔽地）在结果癌症特征中引入系统性和统计性错误，如果不援引某种经验生物学“经验”或“直觉”，通常不清楚它们是否有意义（通常基于众所周知的影响，例如，暴露于各种众所周知的致癌物，如astobacco、紫外线辐射、氟碳毒素等）。归根结底，这一切归结于提取癌症特征的最终方法的有用性或预测性，包括特征的稳定性。对于NMF，答案一点也不明显。。。2.2变相聚类？因此，在实践中，NMF已经使用了聚类方法。然而，它比这更深。虽然NMF一般不会为给定签名产生消失权重，但有些权重（远）比其他权重小。E、 g.，oftenone有几个重量集中度高的“峰”，其余的变异类别的重量相对较低。事实上，许多权重甚至可以在（统计加系统）误差条内。在所有实际用途中，这种权重都可以设置为零。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 05:26:41

事实上，我们可以更进一步，问问低体重的增加是否增加了解释力。解决此问题的一种方法是运行NMF，并附加一个约束，即权重（通过平均值获得–见上文）应高于i）相应误差的某些倍数或ii）一些预设的最小权重。这听起来当然合理，那么为什么在实践中不这样做呢？一个平淡无奇的答案似乎是，这将使已经非常重要的NMF算法更加复杂，需要额外的编码和计算资源等。然而，arguendo，让我们假设我们需要，比如说，权重高于预设的最小权重wminorelse权重设置为零。随着wmin的增加，修改后的NMF将产生越来越多的零。这并不意味着生成的矩阵WiAWe应该指出，在某种程度上，可以使用确定性（例如，凝聚层次-见上文）聚类算法来终止恶意循环，假设数据中有足够的稳定性，这是一种合理的方法。然而，这给结果签名增加了一个（n通常难以量化，因此是隐藏的）系统错误。而且这种误差条在流行的文献中很少出现。。。这需要一个高度递归的算法。将具有二元簇结构，即WiA=wiδG（i），a，其中δABis aKronecker delta和G：{1，…，N}7→ {1，…，K}是从N=96个突变类别到K个簇的映射。换句话说，这并不意味着在给定i（即突变类别）的结果矩阵wiafo中，对于a（即签名）的一个且仅一个值，我们会有一个非零元素。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 05:26:44

然而，随着我们逐渐增加wmin，通常情况下，矩阵WiAis看起来越来越像一元簇结构，尽管有一些“重叠”的特征（即，在给定的一对特征中，一个或多个突变的权重为非零）。我们可以通过多种方式实现二进制结构。因此，一个基本的算法是取矩阵WiA（通过非零wmin在矩阵中实现一些零之前或之后同样成功），对于给定的值i，将所有权重WiAto设置为零，但签名a中的WiA=max（WiA | a=1，…，K）除外。请注意，这可能会导致一些空签名（簇），即对于i的所有值，WiA=0的签名。这可以通过i）以太简单地将此类签名删除到最后，并在最后具有更少的K<K签名（二进制簇）来解决，或者ii）增强算法以避免空簇，这可以通过以下几种方法来实现，我们在这里将不深入讨论。归根结底，NMF本质上可以通过合理的修改，包括去除无处不在且信息量不大的低权重，使其成为一种聚类算法。然而，缺点是更人为的算法，所以这不是我们在这里建议的。相反，我们观察到聚类已经在NMF中交织在一起，问题是我们是否可以通过直接使用聚类方法来简化事情。2.3让集群愉快地工作，答案是肯定的。我们不仅可以有更简单、更稳定的聚类算法，而且它们的计算成本也比NMF低得多。如上所述，使用流行的非确定性聚类算法（如k-Means）的最大问题是，它们会产生大量的局部最优解。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-5-31 05:26:47

为了在本文的其余部分更加明确，我们将重点关注k-means，尽管本文描述的方法是通用的，并且可以应用于其他此类算法。幸运的是，在【Kakushadzeand Yu，2016c】中，在构建用于定量交易的统计行业分类（即股票聚类模型）的背景下，已经解决了这个问题，因此，我们仅从中借鉴，并进一步扩展和调整该方法以应对癌症特征。2.3.1 K-meansA流行的聚类算法是K-means【Steinhaus，1957】【Lloyd，1957】【Forgy，1965】【MacQueen，1967】【Hartigan，1975】【Hartigan and Wong，1979】【Lloyd，1982】。k-均值背后的基本思想是将N个观测值划分为k个簇，使每个观测值都属于具有最近均值的簇。基于上述原因，每种NWhich都优于确定性NWhich。观测值实际上是一个d向量，所以我们有一个N×d矩阵Xis，i=1，N，s=1，d、设K簇，Ca={i | i∈ Ca}，a=1，K、则K表示尝试最小化eg=KXa=1Xi∈CadXs=1（Xis- Yas）（1）其中Yas=纳西族∈CaXis（2）是簇中心（即横截面平均数），na=| Ca |是簇Ca中的元素数。在（1）中，“贴近度”的度量被选择为Rd中点之间的欧几里德距离，尽管其他度量是可能的。k-means的一个“缺点”是它不是一个确定性算法。一般来说，g在（1）中存在大量的局部极小值，该算法只保证收敛到局部极小值，而不是全局极小值。作为一种迭代算法，除非预设了初始中心，否则k-means从初始迭代的一组随机中心Yas开始，并在每次运行中收敛到不同的局部最小值。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-5-31 05:26:50

这里没有灵丹妙药：在实际应用中，通常尝试“猜测”初始中心并不比“猜测”全局最小值所在的位置更容易。那么，一个人该怎么办呢？一种可能是简单地接受这样一个事实，即每次跑步都会产生不同的答案。事实上，这在许多应用中都是可以接受的。然而，在提取癌症特征的背景下，这将导致徒劳无功。我们需要一种方法来消除或大大减少不确定性。2.3.2聚合集群这个想法很简单。如果我们将多次运行的不同聚类（我们称之为抽样）聚合为一个，会怎么样？问题是怎么做。假设我们有mrun（M 1）。每次运行都会生成一个包含K个群集的群集。允许Ohmria=δGr（i），a，i=1，N、 a=1，K（此处Gr：{1，…，N}7→ {1，…，K}是突变类别和簇之间的映射，是每个运行的二进制矩阵，用r=1，M、对于我们来说，这是一种对相应聚类信息进行编码的便捷方法；因此OhmRIA仅包含一个等于1的元素（其他元素为零），Nra=PNi=1Ohmria（即列和）是属于a标记的簇的突变数（注意PKA=1Nra=N）。在这里，我们假设我们知道如何从每次运行中正确排序（即对齐）K个集群。这是一个偏心假设，我们稍后会回到这里。然而，假设我们知道如何做到这一点，我们可以聚合二进制矩阵，下面我们将讨论癌症特征的xis应该是什么。在本文中，“横截面”指的是“超过指数i”。注意这里的上标rOhmria、Gr（i）和Nra（见下文）是一个指数，而不是幂。Ohmriainto单个矩阵Ohmia=PMr=1Ohmria。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-5-31 05:26:53

现在，这个矩阵看起来不像二进制聚类矩阵。相反，它是一个发生计数矩阵，也就是说，它表明在M个采样过程中，给定的突变多次分配给给定的簇。我们需要构建一个图G，这样每个K簇都只有一个突变。最简单的标准是将给定的突变映射到OhmIa为最大值，即所述突变最频繁发生的位置。需要注意的是，这样的集群可能不止一个。解决这种模糊性的一个简单标准是将所述突变分配给累积发生次数最多的聚类（即，我们将所述突变分配给最大值为PNi=1e的聚类Ohmia）。此外，在不太可能出现的情况下，仍然存在歧义，我们可以尝试做更复杂的事情，或者我们可以简单地将这种突变分配给指数a值最低的集群——通常，系统中存在大量噪音，停留在这样的细节点上根本不起作用。然而，我们仍然需要解决一个松散的问题，也就是说，我们的假设是，来自不同运行的聚类在某种程度上是一致的。实际上，每次运行都会产生sk集群，但i）它们不是相同的集群，没有简单的方法来映射它们，尤其是当我们有大量的运行时；和ii）即使集群相同或相似，它们也不会被排序，即一次运行的集群的顺序通常与另一次运行的集群的顺序不同。因此，我们需要一种从不同样本中“匹配”聚类的方法。同样，这里也没有什么灵丹妙药。我们可以做很多复杂而做作的事情，但最后却没有太多东西可以展示出来。一个简单实用的解决方案是使用方法将不同运行的集群对齐。每次运行标记为r=1，M、除其他外，还产生了一组集群中心Yras。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 05:26:56

我们可以将它们逐行“引导”到一个（KM）×d矩阵中，其中ea=a+（r- 1） K取值sea=1，（KM）。我们现在可以通过K-means将眼睛聚类为K个聚类。这将把ea的每个值映射到{1，…，K}，从而将K个集群从每个运行映射到{1，…，K}。这样，我们就可以对齐所有簇。“陷阱”是，无法保证每个M次运行的K个集群中的每个集群都将唯一映射到{1，…，K}中的一个值，即，我们可能在一天结束时有一些空集群。然而，这是确定的，我们可以简单地丢弃此类空簇并聚合（通过上述程序）数量较少的K<K簇。一、最后，我们将使用Kclusters进行聚类，这可能会超过目标聚类数K。这不一定是坏事。丢弃的集群可能首先是多余的。另一个明显的“陷阱”是，即使产生的集群数量也不确定。如果我们多次运行该算法，我们将得到不同的K值。恶意循环？2.3.3修复“终极”群集不是真的！我们还可以使用另一个技巧来确定“最终”聚类，从而使我们的方法本质上具有确定性。上面的想法是聚集足够多的M个样本。每个聚合都会产生一个带有一些K≤ K个集群，这将从一个聚合切换到另一个聚合。然而，如果我们进行大量的聚合（每个聚合基于M个采样），会怎么样？通常情况下，我们会通过这种方式获得相对大量的差异集群。然而，假设数据具有一定程度的稳定性，这个数字远小于我们通过运行普通k均值算法获得的先验差异局部极小值的数量。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 05:26:59

更好的是，聚集聚集的发生计数并不一致，但通常在少数（或可管理的）聚集聚集数量周围有（急剧）峰值分布。事实上，正如我们将在下面看到的，在我们的经验基因组数据中，我们能够精确定位“最终”聚类！所以，概括一下，我们在这里所做的就是这样。我们可以通过普通的k-means获得无数的聚类，但对于选择哪一个几乎没有指导。我们通过将大量此类集群聚合到我们的聚合集群中来减少这种扩散。然后，我们通过检查此类聚集聚类的出现次数，进一步放大到少数甚至唯一的聚类，我们认为这可能是“最终”聚类，最终得出的结果是具有（急剧）峰值分布。由于vanilla k-means是一种相对快速的收敛算法，因此每个聚合在计算上并不繁重，运行大量聚合比运行类似数量（甚至一小部分）的NMF计算更耗时（见下文）。2.4集群的内容？所以，现在我们知道了如何进行聚类，我们需要决定什么是聚类，即取什么作为我们的矩阵Xisin（1）。出于多种原因，naive choice Xis=Giissubo最优（如【Kakushadze和Yu，2016b】所述）。首先，矩阵GIS的元素由非负发生计数填充。具有大量样本的非负量倾向于具有高值长尾的偏斜分布。一、例如，这种分布不是正态分布，但（在许多情况下）大致为对数正态分布。解决这个问题的一个简单方法是用Gis（而不是Gis本身）的（自然）对数来识别XI。一个小问题是Giscan的某些元素可以是0。我们可以做很多复杂甚至复杂的事情来处理这个问题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 05:27:02

在这里，正如【Kakushadze和Yu，2016b】中所述，我们将遵循一种务实的方法，做一些简单的事情——数据中存在着大量的噪音，认为做复杂的事情根本不会带来回报。因此，作为第一个切入点，我们可以采用XIS=ln（1+Gis）（3）这考虑到Gis=0的情况；对于Gis 1我们有Ris≈ ln（Gis），根据需要。其次，【Kakushadze和Yu，2016b】的详细实证分析揭示了其中所称的“总体”模式在发生计数数据中的明确存在。这种“整体”模式被解释为体细胞突变噪声未相关这是因为事情几乎是随机的，手头上唯一的“分布”是flat。在融资方面，类似于这一模式的是所谓的“市场”模式（参见【Bouchaud和Potters，2011】及其参考文献），对应于广泛市场的整体运动，这是为了（事实上模糊）真正的潜在癌症特征，因此必须以某种方式加以考虑。下面是理解“总体”模式的简单方法。设相关矩阵ψij=Cor（Xis，Xjs），其中Cor（·，·）是序列相关。一、 e.，ψij=Cij/σIσj，其中σI=Ciiare方差，序列协方差矩阵xcij=Cov（Xis，Xjs）=d- 1dXs=1ZisZjs（4），其中Zis=Xis-夏尔连续降级，而“Xi=dPds=1Xis”的意思是“Xi”。平均成对相关ρ=N（N-1） PNi，j=1；不同突变类别之间的i6=jψij是非零的，事实上，对于我们研究的大多数癌症类型来说，i6=jψij是高的。这就是前面提到的体细胞突变噪音，必须加以考虑。如果我们按癌症类型（见下文）对样本进行聚合，并计算相关矩阵ψij以获得聚合数据（在我们研究的14种癌症类型中，见下文），则平均相关性ρ超过惊人的96%。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 05:27:05

另一种思考方式是，不同样本（或癌症类型，如果我们按癌症类型聚合样本）中的发生计数并没有在所有样本（癌症类型）中统一标准化。因此，在vanilla matrix Gis上运行NMF、聚类或任何其他特征提取算法（或（3）中定义的“log”xis）将相当于苹果和桔子的混合，从而掩盖真正的潜在癌症特征。继【Kakushadze和Yu，2016b】之后，分解出“整体”模式（或“去噪”矩阵Gis），因此最简单的是对矩阵Xis的横截面（即，跨越96个突变类别）贬低。也就是说，我们使用Xis代替Xis，这是通过贬低Xis的列获得的：Xis=Xis- Xs=Xis-NNXj=1Xjs（5）我们应该注意，使用Xisin而不是Xisin（1）不会影响聚类。实际上，g in（1）在形式Xis的变换下是不变的→ Xis+s、在哪里sis是任意的d向量，因此我们也有Yas→ Yas+s、 soXis公司- Yasis保持不变。事实上，这很好：这意味着去噪不会给聚类本身带来任何额外的错误。然而，矩阵中的实际权重会受到去噪的影响。我们讨论了fixingwiabelow的算法。然而，在确定权重之前，我们还需要一种成分，通过这种额外的成分去噪可以影响聚类。影响所有股票（不同程度）-流入（流出）市场的现金往往会推高（降低）股价。这是市场风险因素，为了缓解这种风险，可以持有中性股票组合（即持有相同的美元多头和空头头寸）。在本文中，“serial”指的是“over the index s”。Cij的总体标准化，即d- 1（无偏估计）vs。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-5-31 05:27:08

对于我们的目的而言，定义慈进（4）的分母中的d（最大可能性估计）是无关紧要的。因此，在这种情况下，d=n=14 in（4）。基于上述原因，我们应该使用Xis，而不是Gis。2.4.1【Kakushadze和Yu，2016c】中讨论了标准化对数计数，聚类Xis（或等效Xis）将是次优的。问题是这样的。设σibe系列标准偏差，即（σi）=Cov（Xis，Xis），其中，如上所述，Cov（·，·）是系列协方差。这里我们假设样本是按癌症类型聚合的，因此s=1，d，d=n=14。现在，σi在横截面上并不均匀，并且在突变类别中有很大的变化。σiis的密度如图1所示，并且是倾斜的（有尾的）。σireads总结：最小值=0.2196，第一个Qu.=0.3409，中位数=0.4596，平均值=0.4984，第三个Qu.=0.6060，最大值=1.0010，SD=0.1917，MAD=0.1859，偏斜度=0.8498。如果我们简单地将Xis聚类，那么σi的这种可变性将无法解释。一个简单的解决方案是将标准化的demeaned log countseXis=Xis/σi而不是Xis进行聚类。通过这种方式，我们将不均匀（和倾斜）的标准偏差从对数计数中剔除。请注意，现在去噪确实会产生差异，包括。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 05:27:11

事实上，如果我们使用exis=Xis/σi（回想一下σi=Cov（Xis，Xis））而不是ofexis=Xis/σiin（1）和（2），那么数量g（以及聚类）将不同。2.5固定聚类数既然我们知道要聚类什么（即eXis）以及如何获得“唯一”聚类，我们需要弄清楚如何确定（目标）聚类数K，这是我们上述算法的输入之一。在【Kakushadze和Yu，2016b】中，有人认为，在癌症特征的背景下，可以通过建立统计因子模型来确定它们的数量【Kakushadze和Yu，2017b】，即特征的数量只是统计因子的数量。因此，出于同样的原因，我们在这里确定了聚类算法中的（目标）聚类数，其中统计因子的数量通过[Kakushadze和Yu，2017b]的方法确定。2.5.1有效RankSo，继【Kakushadze和Yu，2017b】和【Kakushadze和Yu，2016b】之后，我们设定K=圆形（eRank（ψ））（6）更准确地说，【Kakushadze和Yu，2016c】的讨论是在金融背景下进行的，towit，量化交易，有其自身的细微差别（见下文）。然而，其中一些讨论是相当普遍的，可以适用于各种各样的应用。Qu.=四分位，SD=标准偏差，MAD=平均绝对偏差。在其他情况下，已经讨论了各种聚类数量的确定方法，例如，【Rousseeuw，1987】【Pelleg和Moore，2000】【Steinbach等人，2000】【Goutte等人，2001】【Sugarand James，2003】【Hamerly和Elkan，2004】【Lleit'i等人，2004】【De Amorim和Hennig，2015】。在金融领域，这些被称为统计风险模型【Kakushadze和Yu，2017b】。有关多因素风险模型的讨论和文献，请参见【Grinold和Kahn，2000】【Kakushadze和Yu，2016a】以及其中的参考文献。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 05:27:15

有关统计风险因素数量的前期工作，请参见【Connor和Korajczyk，1993年】和【Bai和Ng，2002年】。这里，圆（·）可以被floor（·）=b·c代替。这里，eRank（Z）是对称半正定义矩阵Z的有效秩【Roy和Vetterli，2007年】。它被定义为秩（Z）=exp（H）（7）H=-LXa=1paln（pa）（8）pa=λ（a）PLb=1λ（b）（9），其中λ（a）是Z的L个正特征值，H具有（香农a.k.a.谱）熵的含义【Campbell，1960年】【Yang等人，2005年】。让我们强调一下，在（6）中，矩阵ψij是根据已减记的对数x is计算的。eRank（ψij）的含义是，它是矩阵ψij的有效维数的度量，它不一定与其正值的数目L相同，但通常更低。这是因为许多d向量X可以连续高度相关（这通过特征值中的大间隙表现出来），从而进一步降低了相关矩阵的有效维数。2.6如何计算权重？剩下要完成的一件事是弄清楚如何计算权重SWIA。令人高兴的是，在聚类的背景下，与NMF相比，我们有着显著的简化，一旦我们确定了聚类，即矩阵，计算权重就会变得非常简单OhmiA=δG（i），A（或等效地，映射G：{i}7→{A} ，i=1，N、 A=1，K、其中，为了便于标记，我们使用Kto表示“最终”聚类中的聚类数（见上文）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 05:27:18

正如在NMF中一样，我们希望通过权重矩阵wia和曝光矩阵HAs的乘积来近似矩阵Gisvia，两者都必须是非负的。更准确地说，由于我们必须移除“整体”模式，即去除矩阵Gis的噪声，继【Kakushadze和Yu，2016b】，我们将近似于指数化的去噪对数矩阵Xis：Gis=exp（Xis）（10），我们可以通过取Gis=exp（平均值（Xis）+Xis，orGis=exp（中值（Xis）+Xis来包括整体归一化，或Gis=exp（中位数（Xs）+Xis）（回想一下，Xs是Xis的列平均值的向量-参见公式（5）），等等，使其看起来更像原始矩阵Gis；然而，这并不影响提取的签名。此外，从技术上讲，在重新指数化之后，我们应该“减去”定义（3）中添加的额外1（假设我们包括上述总体正常化之一）。然而，数据中固有的噪声使得这一点毫无意义。请注意，使用标准化的demeaned log countsexis得到相同的ψij。这是因为W的每一列都是权重，将其归一化为1。因此，我们希望将Gisvia近似为一个乘积W H。然而，通过聚类，我们得到了WiA=wiδG（i），a，即，我们有一个块（簇）结构，其中对于给定值a，除了i之外，所有WiAare为零∈ J（A）={J | G（J）=A}，即对于i标记的属于A标记的簇的置换类别。因此，我们的Gis到产品的矩阵分解现在简化为一组依赖性分解，如下所示：Gis≈ wiHAs，我∈ J（A），A=1，K（11）所以，不再需要运行NMF了！事实上，如果我们能够以某种方式确定HAsfor agiven集群，那么在该集群中，我们可以确定相应的权重wi（i∈ J（A））通过一系列线性回归：Gis=εis+wiHAs，i∈ J（A），A=1，K（12），其中ε是回归残差。一、 e.对于每个A∈ {1。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-5-31 05:27:21

，K}，我们回归了d×nAmatrix[（G）T]si（i∈ d向量HAs（s=1，…，d）上的J（A），nA=| J（A）|），回归系数仅为nA向量wi（i∈ J（A）），而残差是d×nAmatrix[（ε）T]si。请注意，此回归是在没有截距的情况下运行的。现在，这一切都是有意义的∈ J（A））回归使二次误差termPds=1εis最小化。此外，如果Has为非负，则权重wi自动为非负，因为它们由以下公式给出：wi=Pds=1GisHG（i），sPds=1HG（i），s（13）。现在，我们希望将这些权重归一化：Xi∈J（A）wi=1（14）这始终可以通过重新缩放HAs来实现。或者，我们可以选择HAs而不用担心归一化，计算wivia（13），重新缩放它们以使其满足（14），同时相应地重新缩放HAs。任务完成！2.6.1固定曝光膨胀，几乎。。。我们仍然需要弄清楚如何确定风险敞口。最简单的方法是注意我们可以使用矩阵OhmiA=δG（i），Ato将GIS中的指数i替换为指数A，即我们可以取A=ηANXi=1OhmiAGis=eηAnAXi∈上标T表示矩阵变换。也就是说，在归一化常数eηA（通过（14）固定）之前，我们简单地在每个簇中采用GIS的横截面平均值。（回想一下，nA=J（A）。）与所有GI均为阳性一样，sode定义的HAs自动为阳性。因此，宽视野（13）也都是积极的。这是一个好消息–消失的WI将相当于一个完整的权重矩阵WiA（即，一些突变将不属于任何簇）那么，（15）为什么有意义呢？看看（12），我们可以观察到，如果用A标记的每个簇内的剩余ε是横截面的，则是随机的，那么我们期望pi∈J（A）ε为≈ 如果我们这里有一个精确的等式，那么我们会有（15），其中ηA=1（即ηA=nA），假设归一化（14）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 05:27:24

实际上，残余ε并不完全是“随机的”。首先，每个簇中的nAof突变类别数量不多。第二，如上所述，不同突变类型的序列标准差存在差异。这导致我们考虑变化。2.6.2上述变量我们认为，根据系列标准偏差σi中的横截面变异性（和偏度），将标准化去甲基对数计数x=Xis/σ进行聚类是有意义的。当计算Has和wias时，我们可能会担心GIS中的类似影响。这可以通过使用归一化数量egis=Gis/ωi来缓解，其中ωi=Cov（Gis，Gis）是序列方差。也就是说，我们可以定义=eηAνAXi∈J（A）eGis=eηAνAXi∈J（A）ωiGis（16）wi=ωiPds=1eGisHG（i），sPds=1HG（i），s=Pds=1GisHG（i），sPds=1HG（i），s（17），其中νA=Pi∈J（A）1/ωi。因此，1/ωi是集群平均值中的权重。2.6.3另一个变量人们可能会想，考虑到Gis和Gis的倾斜大致对数正态分布，将暴露量与退化对数计数的群内横截面平均值相关联，而不是与Gis的横截面平均值相关联，是否有意义？这很容易实现。因此，我们可以确定（这确保了HAs的积极性）：ln（HAs）=ln（eηA）+纳西族∈J（A）Xis（18）指数化we getHAs=eηA易∈J（A）Gis1/nA（19），即，这里我们假设ε在（12）中是/ωI近似随机的。一、 e.这里我们用几何平均值代替（15）中的算术平均值。如上所述，这里我们也可以引入非平凡权重。请注意，（17）的形式与（13）的形式相同，它只受重量的影响。因此，我们可以在几何平均中引入权重如下：ln（HAs）=ln（eηA）+uAXi∈J（A）eXis=ln（eηA）+uAXi∈J（A）σiXis（20），其中uA=Pi∈J（A）1/σi.回想一下（σi）=Cov（Xis，Xis）。因此，我们有：HAs=eηAYi∈J（A）（Gis）1/uAσi（21）因此，权重是指数1/uAσi。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-31 05:27:27

也可能有其他变化。2.7实现我们现在准备讨论上述算法的实际实现，其中大部分R代码已在[Kakushadze和Yu，2016b]和[Kakushadze和Yu，2016c]中提供。R源代码见附录A。3实证结果3.1数据汇总在下面的实证分析中，我们使用了与[Kakushadze和Yu，2016b]中相同的基因组数据（仅来自已公布的样本）。表1总结了这些数据（借用自【Kakushadze和Yu，2016b】），其中给出了总计数、样本数和数据来源，如下所示：A1=【Alexandrov等人，2013b】，A2=【Love等人，2012年】，B1=【Tirode等人，2014年】，C1=【Zhang等人，2013年】，D1=【Nik Zainal等人，2012年】，E1=【Puente等人，2011年】，E2=【Puente等人，2015年】，F1=【Cheng等人，2016年】，G1=【Wang等人，2014年】、H1=【Sung等人，2012年】、H2=【Fujimoto等人，2016年】、I1=【Imielinksi等人，2012年】、J1=【Jones等人，2012年】、K1=【Patch等人，2015年】、L1=【Waddell等人，2015年】、M1=【Gundem等人，2015年】、N1=【Scelo等人，2014年】。【Kakushadze和Yu，2016b】的附录A中给出了具有相应出版物来源的样本ID。在我们下面的分析中，我们按14种癌症类型对样本进行了汇总。结果数据见表2和表3.3.1.1数据结构。基础数据由一个矩阵组成，称为Gis，其元素为突变类型的发生计数，标记为i=1，在s=1，…，标记的样品中，N=96，d、更准确地说，我们可以使用一个矩阵GIS，该矩阵GIS结合了不同癌症类型的数据；或者，我们也可以选择使用单个矩阵[G（α）]，其中：α=1，n标记n种不同的癌症类型；如前所述，i=1，N=96；s=1，d（α）。这里d（α）是用α标记的癌症类型的样本数量。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝