在定量金融中,资金是有风险的,所以检验样本稳定性的方法相当容易理解。基于这些方法,对癌症特征的样本外稳定性的真正测试将是采集一组样本,将其分成2个(或更多)不重叠的子集,根据这些子集独立提取特征并进行比较。事实上,要想有任何统计意义,我们需要一组这样的非重叠集合。例如,我们可以抽取一些样本,并将它们随机分成两半多次。为了使这一点有意义,我们首先需要大量的样本。我们在这篇论文中使用的数据在这个意义上相当有限,因为它只包括公开的基因组样本。不仅癌症类型的数量限制在14种,而且每种癌症类型的样本数量也有限。例如,对于前列腺癌,我们只有5个样本,对于该癌症类型,任何有意义的样本外稳定性测试都是无法实现的。另一方面,在[Alexandrovet al,2013b]中,我们报道了肝癌的aThis作为一个单一特征(几乎与我们的特征2相同),然而,随后,它被分成两个不同的特征,通常出现在相同的样本中。有关详细评论,请参阅http://cancer.sanger.ac.uk/cosmic/signatures.Recovering当我们使用这些参考文献中的数据时,这些签名并不令人惊讶。大量样本(389),这似乎是提取这种癌症类型超显性特征的一个促成因素,尽管不是主导因素——如果不“去噪”,这种特征就不是显性的,在[Fujimoto et al,2016]中也没有发现,大多数肝癌样本都发表在[Fujimoto et al,2016]中。我们需要尽可能多的数据来以任何有意义的方式研究样品外稳定性。