凝聚似然聚类 - 外文文献专区

2022-6-24 13:23:45

聚集似然聚类法*和Tim Gebbie+南非开普敦大学统计科学系，Rondebosch 7701（日期：2021 10月6日），我们考虑了快速时间序列数据聚类的问题。在对基于关联的自旋变量哈密顿量建模的基础上，我们提出了一种更新的快速非代价聚集似然聚类算法（ALC）。该方法将基于优化遗传算法的方法（f-SPC）替换为凝聚式递归合并框架，该框架受到了经济物理学和社区检测领域先前工作的启发。该方法在具有内置聚类结构的噪声合成相关时间序列数据集上进行了测试，结果表明该算法产生了有意义的非平凡结果。我们将其应用于多达20000个资产的时间序列数据集，并认为ALC可以在序列化的同时减少时间序列应用程序大规模集群的计算时间成本和资源使用成本，因此没有明显的并行化要求。该算法对于快速非线性数据环境中在线学习的状态检测是一种有效的选择，因为该算法不需要关于聚类数的先验信息。PACS编号：05.10。Ln，75.10。Nr，89.65。GhI。简介总结从具有未知动态演化和非线性交互的环境中采样的大量快速实时特征时间序列数据需要某种无监督学习。先前的工作[47]探讨了金融市场数据背景下的无监督统计学习问题，其中显示了从数据快速近似超顺磁性团簇结构的能力[2，11]。具体而言，该算法在熵极大值附近恢复了正确的超顺磁团簇结构。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-6-24 13:23:49

以前的案例研究包括股票数据聚类[47]和[12]中的基因数据，金融市场的时间状态[23]，以及交易中自适应机器学习的状态检测[15]。这种快速大数据集群技术的潜在使用案例数不胜数。以前实现的关键问题与非常大的数据集的计算时间有关。在先前工作的基础上，我们提出并演示了一种快速超顺磁聚类（fSPC）的替代方案【47】，该方案采用了【12】中首次提出的“合并算法”的现代简化实现，该算法可以恢复相同或更好的聚类配置，但计算时间显著减少。该算法在精神上类似于网络科学社区检测算法[4，36]。股票市场相关矩阵的结构分析构成了经济物理学、定量金融和网络科学的一大研究主体。代表*莱昂内尔。yelibi@alumni.uct.ac.za+tim。gebbie@uct.ac.zaFor回顾过去20年来基于金融市场相关性的数据聚类（见[25]），更一般的数据聚类（见[17]），尤其是时间序列聚类（见[1，22]）。从网络的角度来看，金融资产之间的关系已成为探索、洞察和可视化各种聚合动态过程对资产的集体影响的越来越有用的方法；无论是市场崩溃的影响，还是投资组合优化的迭代应用的影响。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-24 13:23:53

这很方便，因为图形可以用邻接矩阵表示，相关矩阵可以在处理之前映射到网络数据；这里通过了社区检测算法。网络数据通常由稀疏矩阵表示，这在操作上可以被视为数据聚类和社区检测之间的主要差异，即表示上的差异。为了将相关矩阵映射到邻接矩阵中，应用了阈值isoften[30、41、48]。链接或取消链接相关节点的阈值是任意的。然而，这会给金融资产图的研究增加一层复杂性，同时也是一个额外的噪声源，与控制集合或对象之间关系的动态过程几乎没有关系。我们的方法不同于基于阈值的方法，因为它是一个faithfuldata聚类模型，可与密集的相关矩阵一起工作–这可以使其适用于噪声环境中的复杂系统，但无需任意选择阈值。在此，我们再次利用了Giada和Marsili提出的Noh-Ansatz[31]和最大似然估计（MLE）方法[11，12]。我们称之为新算法凝聚似然聚类（ALC）；与之前在[15、16、47]中实现的并行遗传算法（PGA）相比，它的优点是计算成本更低。性能增强源于能够将算法序列化为跨集群配置的蛮力搜索，以避免不必要的计算开销。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-24 13:23:56

f-SPC的实现。论文内容如下：在第（II）节中，我们介绍了Giada Marsili模型，在第（III）节中，我们描述了优化算法，在第（IV）节中，我们考虑了合成生成的时间序列数据的聚类，在第（V）节中，当信噪比相对较低时，我们提供了额外的工具，第（VI）节探讨了具有嵌套块结构的复杂相关矩阵的解决方案恢复，第（VII）节讨论并比较了我们的新方法执行运行时与以前的算法和HDBSCAN，然后是第（VIII）节的讨论和结论，强调了我们介绍的算法的性能。二、GIADA-MARSILI似然模型股票市场相关性矩阵的谱分析提供了一种以Nohansatz[31]为形式的直觉：在金融市场中存在一种层次结构，其中单个股票是较大资产组的子组成部分，每个资产的个别回报率受其所属资产集合的影响。这可以用一个简单的生成模型来表示【31】：xi=fi+i（1）夏尔股票的特征、集群相关影响，以及i节点的特定影响。反过来，这种生成模型可以迭代地嵌套在一组更复杂的独立层次结构中，通过存在自上而下和自下而上因果关系的未知噪声项进行扩展【40，43】。在这里，我们将自己限制在一个单独的集合中，该集合被分成多个组，并使用一个简单的噪声术语来解释无法解释的外部性。我们考虑一组嵌入在aspace中的N个观测值，每个观测值都被赋予一个自旋值，每个观测值的维数为D。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-6-24 13:23:58

ansatzmodels的一个版本的观测特征是xi=gsiηsi+q1- gsi公司i（2）其中xi是一个特征，即簇内耦合参数，η是簇相关影响，以及itheobservation的特定影响和测量误差。A方差分析产生额外的术语，如聚类的结构和聚类内的相关性。我们明确提到，必须强制执行ns<cs<ns：需要下限，因为未定义cs值的gsi≤ ns和上限要求热平均hgsi可用于重建具有与原始时间序列相同的统计特征的数据集，使用Eqn。（2）【11】此处ns=PNi=1δsi，s，cs=PNi=1PNj=1Cijδsi，sδsj，s，gs=qcs-NSN-ns【11，15】。一个严格不等式，因为方程。（4）当S=ns时为未定义。我们引入Dirac delta函数来模拟在临界状态下观测数据的概率【26】：P=DYd=1NYi=1*δ（xi- （gsiηsi+q1- gsi公司i））+。（3）这种联合可能性是每个观测值和每个特征的聚类配置与观测数据相匹配的概率。从P导出的对数似然可以看作这个Pottssystem的哈密顿量【44】：Lc=Xs：ns>1lnnscs+（ns- 1） lnns公司- NSN- 反恐精英. （4）计算每个特征的总和，并表示数据中存在的结构量。LCI的值通过NSA和cs间接依赖于自旋。相对于大多数行业标准备选方案，该方法有以下优点：首先，LCI完全依赖于Cij，数据集的维数仅在计算Cij中起作用。其次，它是自适应的：与K-MEANS（38）或类似算法不同，簇的数量不作为输入。聚类配置是随机生成的，而最大化LCS的配置为我们提供了聚类的数量及其组成。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

2022-6-24 13:24:01

后一个特性的重要性不应丢失，因为它消除了一层不必要的超参数调整。因此，该算法与DBSCAN[7，20]和HDBSCAN[6，27]等算法竞争。三、聚集可能性聚类（aggregative likelihoodclustering）在考虑聚类问题时，通常使用的传统观点是尝试将方法划分为实现自顶向下或自底向上算法的方法。使用这种观点，自上而下的方法被认为是分裂的，包括以单个集群作为初始条件开始，并在最小化成本的同时迭代地将图拆分（或分割）到其他集群中。另一方面，自底向上方法最初从其自身集群中的每个观测值开始，然后进行迭代合并[29]。所谓的“Louvain”算法[4]是聚合的，因此可以认为是为了在网络上实现后一种自下而上的“社区检测”方法。ItLet yi=xi-gsiηsi+q1- gsi公司我, δ（y）是y的狄拉克三角函数，当y=0时为1，否则为0。在精神上与Marsili和Giada在[12]中开发的合并算法（MR）非常相似。我们以前实现的方法是基于高效的实现，这些实现简化了DPGA优化框架，例如，在[15、16、47]中提出的那些允许各种突变。然而，这些方法对初始条件很敏感，因为在每一步都会对新一代个体进行突变、评估，然后一组最佳候选个体存活下来，直到下一个算法的迭代——这可以是任意路径依赖的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-24 13:24:04

f-SPC算法[47]通过能够排除[15，16]中使用的geneticprogramming框架中计算代价高昂的变异约束，在PGA框架中获得了额外的计算优势。然而，基于遗传算法的方法也有缺点，表（I）中讨论了关键方法，并说明了以下需要：I.）不明确的停止或收敛标准，ii。）随机突变，以及iii.）某种并行化以减少计算时间。（一） 1收敛标准：假设存在多个局部极大值，它试图围绕这些“次优”解决方案导航，以达到全局最大值。然而，这是不确定的，它只是假设一旦满足一个标准，算法就会停止——该算法是显式随机不收敛的。（一） 2随机突变：由于算法应用随机突变，种群规模、突变数量和多样性以及世代数都会对最终结果产生影响-这可能会引入路径依赖。（一） 3并行化：该算法要求在每次迭代时评估整个变异群体。这需要在每个工作者身上加载数据（即相关性或相似性矩阵），因此需要计算和内存成本。可能性评估本身并不昂贵，但多处理会增加CPU开销。这可以通过使用GPU来缓解，如[15]所示。表一：似然Lc的PGA算法的缺点。A、贪婪的merging要构建一个快速的通用自底向上合并算法，我们再次从N个簇中的所有N个自旋开始，但以贪婪的方式迭代合并簇。Giada Marsili合并算法（MR）的实现需要计算可能性的变化Lc：我们考虑三个集群C、C和CwithC=C+CW，其中加法运算符“+”表示集群Cand Care合并。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-24 13:24:08

Marsili和Giada de finetwo案例Lc【12】：案例1：Lc=Lc（C）- 最大值[Lc（C），Lc（C）]（5）情况2：Lc=Lc（C）- 【Lc（C）+Lc（C）】（6）如式（5）所述，在案例1中，C将比任何C和C更好。在这里，我们选择使用更具限制性的定义，如式（6）所定义的案例2。关键是要认识到，案例2要求新合并的集群必须优于两个单独子集群的组合。我们可以通过构建一个在集群空间上执行综合网格搜索的算法来迭代利用这一点。为了实现这一点，我们可以通过去掉和来修改等式（4），并且只计算单个集群的可能性：Lc=lnnscs+（ns- 1） lnns公司- NSN- 反恐精英. （7）每次迭代的目标是最大化l完成所有可能的动作。我们用于生成移动的实现受到了隔离检测方法创新的启发，即社区检测[18]算法，如“Louvain算法”[4]。使用这种类型的社区检测，我们返回到Abotomup聚集方法，使用似然法快速列举候选配置，以确定特定配置的有效性。凝聚似然聚类框架是一个通用框架，适用于任何有用的似然函数选择。在这里，我们将选择修改后的GiadaMarsili似然函数，然后使用合并算法中的案例2（等式（6））。还可以选择其他可能性，例如多因素聚类规范或可能性函数分叉方法。该框架是通用的，但所做的选择特定于自旋哈密顿框架。B、迭代群集配置实现需要跟踪关联矩阵和算法每次运行时的群集配置。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-24 13:24:16

为了保持集群结构的灵活但动态的表示，我们引入了跟踪器阵列的概念（见表（II））。此对象将在算法更新期间存储每个集群中表示的对象列表。该算法是用单态集群初始化的。一旦执行了表（II）中的初始化步骤，我们就可以进入所需的实际优化步骤，在python中，计算出的numpy相关矩阵可以存储到python字典中，以便轻松高效地进行修改。跟踪器可以存储为列表变量。这些在表（III）中描述。这需要群集更新步骤，计算可能性变化，使用跟踪列表更新配置记录，更新相关矩阵，然后检查收敛标准。（二） 1相关矩阵：C存储在一个结构中，每当需要新条目、创建额外的聚类或删除以前的聚类对象时，都可以轻松修改该结构。（二） 2单例初始化：所有对象都从它们自己的集群开始。（二） 3跟踪列表：我们创建一个存储对象列表的列表：每个列表代表一个集群，列表中的标签是集群成员。变量nsis是集群大小。表I I:ALC初始化使用单例配置、以高效方式存储的相关矩阵（可在算法实施期间轻松修改）以及记录配置的跟踪列表。（三） 1聚类：在Tracker的标签中随机选取一个对象，将其与所有其他对象聚类，并存储结果Lcvalues。（三） 2最大化可能性变化：找出最大信用证；如果大于0，则继续下一步。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-24 13:24:19

否则，将从列表中删除对象，并重新启动进程。（三） 3跟踪器更新：如果存在积极的Lc，为新集群创建一个新标签，其内容是我们合并的两个集群的联合。（三） 4相关矩阵更新：CorrelationValue是合并的两个集群的相关性之和。自相关性是簇内相关性的总和。（三） 5迭代收敛：该过程一直重复到Lcis非负。表III：时间序列聚类的聚集似然聚类算法的主要程序包括合并聚类，以找到最大的似然增长（见附录（1）中的伪代码）IV.合成数据a。噪声和不相关数据首先，我们开始在随机不相关数据“白噪声”上测试我们的算法。我们从具有3个自由度的student-t分布中生成不相关数据，数据集大小和长度不同。在图（1c）中，我们可以观察到该算法恢复的聚类大小的概率分布。尽管clustersby design不存在，但Uncorrelateddata产生集群。此外，在图（1a）中，我们显示了随着数据集大小的增加，“噪声”簇的数量：簇的数量与数据集大小之间的线性关系微不足道，然而，当簇的数量用N归一化时，我们观察到它实际上比N增长得慢。图（1b）中的曲线可以作为我们方法解的上限。当样本协方差估计固有的估计噪声可以解释在数据中实际上不存在聚类时识别聚类的问题。基本事实是单位矩阵，但由于有限的大小影响，估计的对角线值非零。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-24 13:24:22

聚类大小在半对数图上呈厚尾分布，分布模式为5。其影响是多方面的：大小为5及以下的小簇在统计上与噪声无法区分，而较大的簇则不太可能是虚假的。此外，真正的不相关数据应该是单态的解，但这并不是绝对的情况，因为如前所述，“噪声”的数量增长速度不如N快。B、聚类综合Student-t数据复杂系统的特点是其在时间和空间上的多尺度动力学。金融市场就是一个很好的例子，在这个例子中，股票价格被记录并在毫秒到日价格（如果不是周、月和年的话）的时间尺度上进行聚合。如果不是不兼容的话，在不同的时间尺度上运行的数据生成过程可能会有很大的不同。与此同时，市场本质上是非平稳的，这意味着过去很久的数据变得不真实，这对大多数投资模型的表现有着明显的影响。在这里，我们考虑相关的合成数据，并使用等式（B1）中的单因素模型生成500、1500和3000个变量长度为60、250和500的时间序列的Student-t分布式数据集（见附录（B））。高斯混合在机器学习文献中很容易用于测试数据聚类。这里我们只使用student-t分布，因为已知股票收益分布是厚尾分布[10，13]。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-6-24 13:24:25

这个程式化的事实是通过模拟student-t分布所捕捉到的；我们希望调查这可能对我们的算法产生的潜在影响。（a）作为数据集大小函数的群集解决方案的平均群集数。（b）与数据集大小相关的规范化集群数，作为数据集大小的函数。（c）不相关无簇数据集簇大小分布的半对数图。图1：不相关无聚类时间序列数据聚类的描述性分析。（a）模拟：1000天内500个模拟资产的群集衍生相关时间序列累积回报。（b）地面真值：估计的真相关矩阵MST（c）：估计的相关矩阵MSTFIG。2：使用由表（2）创建的合成相关时间序列数据。在子批次a.）中，500标准化时间序列累积每日收益按聚类着色。b.）和c.）中分别给出了真实聚类结构的最小生成树，以及从合成数据中估计的相关矩阵。这些颜色代表数据中存在的10个簇。大小为500、1500和3000的数据集似乎是任意选择的。然而，标准普尔500指数的规模大约为500，罗素家族的指数：罗素1000、2000和3000，占美国股市总市值的90%。存在数千只股票的大投资组合，必须对其估计相当大的相关矩阵。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-6-24 13:24:28

相关矩阵很容易直接用于马科维茨的投资组合优化[19，49]，或通过使用分层风险平价等方法进行聚类间接使用[35]。任意选择簇内耦合强度gs来说明两种极限情况：0.05和1，ALC HDBSCANN=500 N=1500 N=3000 N=500 N=1500 N=3000 GS=0.05D=20 0.04 0.06 0.03 0.04 0.00D=60 0.07 0.07 0.03 0.03 0.02D=250 0.19 0.14 0.14 0.09 0.08 0.09gs=0.1D=20 0.09 0.08 0.11 0.04 0.01 0.04D=60 0.19 0.15 0.14 0.12 0.07 0.03D=250 0.47 0.32 0.23 0.18 0.12gs=0.3D=20 0.27 0.24 0.24 0.22 0.17 0.12D=60 0.58 0.49 0.41 0.40 0.31 0.20D=250 0.90 0.84 0.760.66 0.60 0.35gs=1D=20 0.61 0.49 0.44 0.56 0.51 0.48D=60 0.90 0.87 0.81 0.83 0.80 0.73D=250 0.99 0.98 0.96 0.98 0.94 0.92表四：包含10个相关时间序列集群的数据集的ALC和HDBSCAN集群解决方案的调整后兰德指数（ARI）。从左到右，时间序列的大小从500到3000不等，而从顶部到底部，时间序列的长度从20到250不等。平均簇内相关性gs也从0.05变为1。两种中间情况：0.1和0.3。这里的值0.3近似于股票市场的平均相关性[34]。这不是平均的集群内相关性，这就是gsis；然而，它给出了在给定真实股票市场数据的情况下，该算法将如何执行的感觉。极限值0.05和1用于显示在处理低束缚或弱束缚簇时性能如何下降（gs=0.05），而不是完全相关簇（gs=1）。假设两个时间序列属于不同的聚类，它们的成对相关性应为0。然而，情况并非总是如此，因为存在噪声，较低的GSR将使集群接近噪声。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-24 13:24:32

我们在表IV中实证证实，这将恶化算法性能。在这里，对每个大小和长度对进行了100次模拟，并对地面真实值和模型输出之间的调整后兰德指数（ARI）[37]进行了平均（见表（IV））。时间序列长度的选择考虑了噪音的影响。短时间序列预计会导致更高的噪声和虚假相关性。虽然有限的影响仍然存在，但更长的时间序列可以改善这种情况。为此，我们选择长度：20、60和250。这些是真实世界数据中1个月、3个月和12个月的交易日数的近似值。这些长度足以对每日价格进行数据聚类。它还表明，在高频区域内，测量值丰富，相关矩阵更容易估计，算法应相应执行。然而，在高频域中，人们更直接关注的是样本估计相关性的适用性，这些相关性不涉及离散化的影响【33】。五、噪波：重新采样群集和Bootstrapin秒。（IV B）我们表明，相关矩阵的估计会产生统计噪声，这会显著影响聚类算法的性能。在此，我们提供了一种使用自举调节噪声影响的方法。直觉来自算法性能与信噪比Q=DN之间的关系。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-24 13:24:35

用随机矩阵理论对相关矩阵的分析表明，它们可以在N→ ∞,D→ ∞ 和Q≥ 1并进行维护。尽管存在着生活在所谓“大数据”时代的错觉，但在金融领域，更具体地说，在金融市场的背景下，可观测数据仍然是非平稳的，并且会受到极端事件、冲击和制度变化的影响，所有这些都是在有战略目的的代理人的存在下进行的。数据很快就会过时。这意味着，用于估计相关矩阵cijc的时间序列长度可以实际缩短或自适应估计，以更好地捕捉更相关、时间或制度相关的近期动态，但代价是估计噪声增加。如表（IV）所示，这可能会对集群解决方案产生严重影响。A、过滤相关矩阵在这里，我们考虑股票数量sn很大，但实现数量D很小，导致Q≤ 1违反质量条件。Wethen建议通过对n个股票中的n个股票进行抽样来构建一个定义的过滤聚类成员矩阵，从而满足n个抽样子问题的质量条件：q=Dn≥ Q、表（V）明确了实现此功能的例程。这引入了过滤相关矩阵cij的思想，其灵感来自原始Potts“自旋-自旋相关函数”【44】。考虑从集合{1，…，n}随机抽取n个对象。首先，从每个样本中，我们计算了绘制在一起的对象的空中频率，fij:fij=Xm∈MXi<jδij。（8）其次，我们找到了对象开始聚集在一起的成对频率，dij:dij=Xm∈MXi<jδsisj。（9）然后，可以将这些组合成一对聚集对象的normalisedpropability:pij:pij=dijfij。（10）这是对对象聚集在一起的概率的度量。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-6-24 13:24:39

然后使用阈值ω：pωij=（1，pij）将其映射到[0，1]上的OrdinalDependency函数- ω>0,0，pij- ω ≤ 0。（11）最后一步类似于Blatt等人提出的原始超顺磁聚类（SPC）算法中使用的阈值方法。我们注意到，可以使用任何激活函数，这让人想起后勤回归。最初的SPC使用模拟退火，通过重复的成对连锁验证过程估计出一个类似于pij的量（见等式（10）），称为“自旋-自旋相关”（V）1超参数（q，n，ω，m）：目标信噪比：q。根据q计算的样本大小n。相关阈值：ω。迭代次数：m.（V）2重采样簇：k=1到m1。计算N×N矩阵f（k）ij，2。n个指数的聚类样本，3。计算N×N矩阵d（k）ij。（五） 3概率矩阵：计算N×N矩阵pij（等式（10））。（五） 4有序过滤依赖矩阵：计算pωij（等式（11））（V）5最终配置：最终集群配置可以从作为图的邻接矩阵的有序矩阵pωij构建。表V：凝聚可能性聚类的引导例程（参见Python脚本“cluster resampling.py”[45]）。目标是重复聚类dij（等式（9））中聚集的数据集子集，转换为归一化概率pij（等式（10））并过滤为顺序过滤依赖性pωij（等式（11）），从中提取最终聚类。采样的n个指数包含在n中，这意味着例程将对相关矩阵质量因子q高于q的数据集的小子集进行聚类。该操作将在预设的迭代次数m中重复，我们使用矩阵aan和F创建C*.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-24 13:24:42

然后将阈值函数应用于C*要创建具有断开组件的过滤邻接矩阵，请从中提取聚类解决方案：CF*.最大迭代次数m是任意的，实验表明，算法的收敛性依赖于n，间接依赖于n。这意味着更大的数据集需要更多的索引空间采样。我们任意设置最大迭代数：m=2200。最后，我们探索了两个阈值：ω=0.5和ω=0.75，并将其与使用niave相关矩阵进行比较。虽然是任意的，但直觉来自于[3]，其中用于将同一组中的对象聚类的阈值是0.5。bootstrap方法在几个相关数据集上进行了测试，这些数据集的大小和时间序列长度介于N=1000和D=10到N=3000和D=30之间。选择nsample大小时，如果q=0.01，则q=0.1。使用ARI将输出集群解决方案与地面真相进行比较。ARI也可用作映射条件：如果ARI≥ 0.9算法停止。（a） ARI用于使用阈值ω=0.5的自举ALC。（b） ARI用于使用阈值ω=0.75的自举ALC。图3：ARI是针对使用bootstrap方法和地面真相恢复的集群解决方案计算的。数据集大小从1000到3000不等，信噪比固定在q=0.1。图（3a）和（3b）显示阈值为0.5，明显低于0.75。在图（3a）中，2000次迭代后，解尚未收敛。尽管它们似乎在遵循上升趋势，但经过500次迭代后，所有轨迹都绝对不如图（3b）中的对应轨迹。在图（3b）中，我们展示了优越的情况。假设所有数据集都有固定的q=0.1，我们表明bootstrapmethod性能与n的大小相关，样本量越大，结果越好，位置越小。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-24 13:24:45

虽然在前750次迭代中，性能的增长是积极的，但在3种情况下（n=100、150、200），性能往往会下降到超过该点，之后该算法因达到最大迭代次数而停止。认为较大的氮是有益的结论是错误的，这是因为q是固定的，而n是增加的。该问题与表（IV）有关，其中，对于数据集大小为N=500、1500、3000的最短时间序列（即长度20），相应的ARI分别为0.68、0.54和0.48。当时间序列长度较小时，ARI与数据集的大小呈负相关。将Bootstrap方法应用于N=2000、N=200、序列长度为20的类似情况（参见图（3b）中的绿色曲线），在750次迭代后，ARI高于0.8，从而证明了该方法在处理大数据集和短时间序列时的有用性。六、与HDBSCAN相比，分层块相关性SALC在使用单因素模型生成的相关时间序列的聚类系统中非常有效，但似然模型使用的是使用单因素显式推导的模型。Realisticcorrelation结构将包括包含多个因素的更复杂的时间序列模型。特别是，金融时间序列聚类中的一个重要相关问题是具有块层次结构的聚类相关矩阵[24、40、41]。这里，每个块对应一个相关集群，该集群应该与其嵌套结构一起可恢复。ALC和HDBSC都无法恢复树状图，Hencec也无法恢复完整的嵌套结构，除非对每个已识别的集群进行递归迭代，直到只剩下单例，并保留这些分层迭代的配置路径。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-6-24 13:24:48

因此，比较ALC和HDBSCAN在块层次问题上的差异是有用的，因为这将更清楚地说明ALC如何处理可能存在于集群中的子集群。考虑N只股票，其价格回报率受到一组c层次因素η的影响，以及股票的个体效应；此处η和是IID随机变量~ N（0，1）。相关矩阵可以按嵌套簇组织：h ··· 香港 ··· hc，其中h、····、hc表示因子η、····、η依次添加到信号中的层次结构，以便沿着层次结构路径，所有股票都是相关的，而较低层次结构继承了较高层次结构的所有因子。当我们考虑价格回报过程模型xi：h：xi=βη+α时，图像更清晰i、（12）。。。hk：xi=βη+···+βkηk+αki、（13）。。。hc：xi=βη+····+βkηk+···+βcηc+αci、（14）（a）使用等式生成的具有5个层次结构的聚类的相关矩阵。（12） -（14）（b）使用等式生成的具有5个层次结构的3个集群系统的相关矩阵。（12） -（14）（c）使用等式生成的具有5个层次的聚类树状图。（12） -（14）（d）使用等式生成的具有5个层次结构的3个集群系统的树状图。（12） -（14）图4：具有嵌套簇的相关矩阵及其各自的树状图。左边是5层模型，右边是3个集群，其中有5个嵌套的层次结构。此处αk=1-Pkjβjk是层次索引，其中，α调节信噪比，并且可以通过强制sumPjβjt等于0到1之间的任何值来任意设置为任何值。βs的选择也应确保βj<βj+1这确保了属于等级HK的股票与ηk更相关。有许多方法可以参数化此类嵌套线性模型，事实上，这只是Tumminello等人的更一般模型的特例。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-24 13:24:50

[40].使用该模型，我们在两个层次的块相关示例上演示了聚类：a.）图（4a）中的250只股票的聚类的相关矩阵，图（4a）中的5个层次（每个层次50只股票），和b.）系统的相关矩阵，图（4b）中的3个聚类的估计时间序列为250个观测值（即1个交易年），α=0.4（如图（4b））。与我们的玩具模型不同，真实的相关矩阵不太可能以一种可以揭示其块结构的方式进行静态排序，这将使聚类变得平凡。使用单链接算法创建的图（4c）和（4d）中的树状图揭示了图（4a）和（4b）中相关矩阵中存在的层次结构。乍一看，通过有序相关矩阵可以区分图（4c）和（4a）中的5个层次。然而，在包含这些嵌套簇集的倍数的系统中，表观结构是具有潜在子簇的3个簇的结构。这里的关键问题是，由ALC和HDBSC产生的解决方案是否包含子簇或大簇；i、 e.图（4a）中的数据分析结果是否包含1个或5个聚类，以及图（4b）中的那些、3个或15个聚类？为了回答这个问题，我们对这两个数据集进行了若干α值的聚类，以研究低相关性和间接低聚类密度对算法输出的影响。我们发现，对于低α，时间序列主要受这些因素的影响，对于图（4a）和（4b）中的数据，HDBSCAN和ALC都分别恢复了5个和15个簇。HDBSCAN的噪声影响更大，算法开始将α>0.2（见图（6））生成的数据集的观测值添加到图（4a）中数据的“噪声”类别中。而ALC生成的溶液开始从α>0.4降解。数据inFig也是如此。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-24 13:24:54

（4b）当α>0.2时，HDBSCAN开始将嵌套簇合并为3个大簇，当α>0.5时，解决方案会进一步退化（见图（6））。同样，ALC解决方案更具弹性，当α>0.4时，嵌套簇合并，3cluster解决方案永远无法恢复，ALC解决方案开始退化。这标志着ALC和HDBSCAN之间存在着明显的差异：ALC似乎优先考虑较小但更紧密相关的集群，而HDBSCAN的默认行为是合并集群，即使产生的集群密度较低（即噪音较大）。ALC似乎对噪声的鲁棒性也提高了20%。最后，对于α>0.7的ALC溶液，是完全无序的分区。七、性能改进ALC类聚类算法的吸引力在于其始终优于f-SPCalgorithm的能力，同时通常对噪声具有鲁棒性。在此，我们使用附录B中所述的综合模型对时间序列数据集进行聚类，其大小不断增大（N=50100200300）和10个聚类。图7a显示，如果我们使用似然函数作为质量函数，ALC可以恢复质量更好的聚类解决方案，如[12]所述。此外，算法运行时间大致为二次型。这是根据合成数据集SO（N1.97）和真实数据集SO（N2.11）进行估计的，从而使其在在线学习问题上具有竞争力。我们将该算法的运行时间与之前的f-SPC和HDBSCAN进行了比较【27】。如前所述，f-SPC的解决方案不仅具有较低的可能性，而且需要更多的计算能力，才能在10个大小不等的聚类的显著高斯混合中实现收敛。1998年至2020年间，我们每天对CRSP美国共同基金净资产值（NAV）进行采样，从中获得的数据集的大小为100到10000，时间更长。图7b表明，如果未来的优化算法提供低质量的解决方案，则其成本预计不会比ALC更高。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-24 13:24:57

最后，我们认为HDBScan是ALC的天然替代品，是一种基于层次和密度的聚类方法，它比我们的算法优化得多，因此目前更适合于超大数据集。然而，有证据表明，ALC可以被视为HDBSC的重要替代品，因为在某些情况下，当数据密度较低、相关性较低且噪音较大时，它在ARI方面表现优异（见表IV）。关键的一点是，ALC在质量和性能方面都具有竞争力，而不是为了优化运行时间性能而重新定义算法。八、讨论和结论我们提出了一种能够实现Giada MarsiliLclikelihood最大化的凝聚算法（见等式（4））。在之前的工作中，我们建立并证明了一种使用Eqn局部最大化可能性的机制。（7）而不是Eqn。(4) [47]. 在这里，我们不是随机移动，而是对所有可能的组合进行综合搜索，并在每次迭代中选择最佳移动。该算法比马尔可夫链蒙特卡罗算法和基于遗传算法的求解速度要快得多，并达到相等或更好的最大值。它只需要一个相关矩阵作为输入，其输出是反映相关样本的最佳聚类数的聚类配置。它不需要关于集群数量的优先信息。该特性可能使该算法适用于快速大数据环境中在线学习的状态检测。我们还提出了一种基于inEqn中给出的Noh ansatz的模拟相关时间序列数据生成方法。(2). 单个时间序列由其日常随机效应确定虽然它们仍然受到集群效应η的影响，但单个对象与其集群之间的耦合强度由gs表示。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-6-24 13:25:00

这使我们能够调整集群密度，并研究其对集群质量和基准性能的影响。我们发现，即使在较低的簇内耦合值（gs≈ 0.05）性能很差，但随着GSR的增加和群集的密集化，该算法比其竞争的替代HDBSCAN更快。对于ALC和HDBSCAN，我们能够对更大的数据集进行集群，并将模拟扩展到N=10000。所有脚本均在带有4个CPU的移动Intel i7 CPU上执行。这取决于高代，对于更高的数字，应该可以获得更好的结果。这说明f-SPCR需要非平凡的参数化，而ALC则不需要。（a）使用HDBSCan和ALC对图（4a）中的数据恢复的群集数，作为功能群集规范。ALC对层次相关模型中的聚类特定噪声更具鲁棒性。（b）使用HDBSCan和ALC对图（4b）中的数据恢复的簇数，作为簇特定噪声的函数。ALC对层次相关模型中的聚类特定噪声更具鲁棒性。图5：集群数量与集群特定噪声级参数α的函数关系。随着α增加，集群特定噪声增加。ALC从α=0.4降低，并且在高噪声水平下会产生许多单态。图6:HDBSCAN对“集群”图（4a）和“系统”图（4b）中的数据误分类为噪声的对象百分比。当信噪比较低时，在某些情况下，可以通过结合ALC使用自举来减轻相关矩阵噪声的影响。这允许更好的总体性能，但代价是算法运行时间显著增加。与引导相关的增加的计算可以以批处理格式执行，也可以与集群算法本身并行执行。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-6-24 13:25:04

然而，能够对相对较短的时间序列（或相当低维的数据集）执行准确的聚类是很有价值的。我们注意到，为引导步骤探索替代的、也许更有效的采样方案可以减轻这一额外成本【21】。在（V）中引入的currentBootstrap方法是在n个变量中的n个均匀样本空间中进行的，对于大的n，该方法变得非常昂贵。此外，我们在已知地面真实情况的合成数据上演示了它的使用。在realdata上，显然需要为潜在用户确定停止标准（即似然Lc的收敛性）。当我们使用分层因子模型设计和聚类数据集时，ALC和HDSCAN都会恢复底层嵌套的集群。ALC对生成的合成数据集的鲁棒性提高了20%。事实上，对于这样的层次集群的大型系统，HDBSCAN有将集群合并为大型集群的趋势。这类聚类问题没有单一的解决方案，由从业者来确定具有较大但密度较小的聚类的解决方案是否比具有较小但密度较大的聚类的解决方案更有用。在在线学习环境中使用该算法可以实现潜在的进一步研究。我们怀疑，在金融市场的情况下，可能会进行时间聚类，这将允许对金融市场现有动态进行分析，从而提高可靠性。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-24 13:25:07

专门用于围绕记录的极端事件对金融市场进行动态聚类分析。当前版本的算法能够轻松处理多达10000个样本的数据集即将在Intel（R）Core（TM）i7-6700HQ CPU上进行测试，测试频率为2.60GHz（a），通过使用f-SPC（47）和ALC（第三节）在对数尺度上增加数据集大小时获得的解决方案的似然Lc（见第二节中的模型），比较群集质量。ALC解决方案系统地比使用f-SPC获得的解决方案具有更高的可能性。（b）当我们在fSPC【47】、ALC（第三节）和HDBSCAN【27】的对数尺度上增加数据集大小时，比较算法运行时性能。所有都大致为二次型，f-SPC的价格明显更高，而HDBSCAN的表现优于ALC。在不到5分钟的时间内，就有足够的时间来“喝杯咖啡”。重要的是，还应该注意到，Louvain算法存在多个比当前算法中使用的原始实现更快的版本【9、32、39】，人们应该能够找到进一步的优化，这将使大规模密集相关矩阵的聚类成为可能，类似于目前在网络科学领域所做的工作。对分布假设的影响也是未来工作的一个重要领域，第（II）节的Giada Marsili可能性是在假设IID Gaussianrandom变量的情况下得出的。使用相同的Noz-Ansatz，应该可以得出假设不同分布的相关模型扩展。e、 g.学生t分布。具体而言，高斯假设是这类模型的基线，但众所周知，股票市场的对数收益率至少是厚尾分布的（除了其他类型化的事实，如长记忆、波动性聚类和杠杆效应）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-24 13:25:10

这激发了使用分布的替代建模，这些分布捕获了额外的样式化事实【10，13】。此外，可以使用不同的相似性度量。两个随机变量之间的协方差是用于对金融市场资产收益率序列进行数据聚类的标准相似性度量。信息论互信息等替代方法此前已直接用于金融数据时间序列[8，14]。最后，我们认为有可能升级ALC，使其具有更高效的编码，并对优化方案本身进行更好的修改，类似于最近Louvain的实现。九、致谢作者感谢Nic Murphy、Daniele Marinazzo、Gautier Marti和Unarine Singo的讨论和评论。[1] Aghabozorgi，S.，Shirkhorshidi，A.S.，和Wah，T.Y.（2015）。时间序列聚类——十年回顾。信息系统，53:16–38。[2] 布拉特，M.、怀斯曼，S.和多曼尼，E.（1996）。数据的超顺磁性聚类。物理。修订版。Lett。，76(18):3251–3254.[3] Blatt，M.、Wiseman，S.和Domany，E.（1997年）。使用模型粒状磁铁进行数据聚类。神经计算，9（8）：1805-1842。32GB随机存取内存。[4] Blondel，V.D.，Guillaume，J.-L.，Lambiotte，R.，andLefebvre，E.（2008）。大型网络中社区的快速发展。统计力学杂志：理论与实验，2008（10）：P10008。[5] Bun，J.、Bouchaud，J.-P.和Potters，M.（2017）。清理大型相关矩阵：来自随机矩阵理论的工具。物理报告，666:1–109。[6] Campello，R.J.G.B.、Moulavi，D.和Sander，J.（2013）。基于层次密度估计的基于密度的聚类。《知识发现和数据挖掘进展》，编者，裴，J.，曾，V.S.，曹，L.，Motoda，H.，和Xu，G.，计算机科学讲稿，第160-172页，柏林，海德堡。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-24 13:25:12

斯普林格。[7] Ester，M.、Kriegel，H.-P.、Sander，J.和Xu，X.（1996）。一种基于密度的聚类发现算法一种基于密度的聚类发现算法，用于在有噪声的大型空间数据库中发现聚类。《第二届知识发现和数据挖掘国际会议论文集》，KDD\'96，第226–231页。AAAIPress。[8] Fiedor，P.（2014）。基于互信息率的金融市场网络。物理。修订版。E、 89（5）：052801。[9] Fontolan，F.（2020年）。GPU上基于模块化的社区检测。威尼斯大学学士学位论文。[10] Gabaix，X.、Gopikrishnan，P.、Plerou，V.和Stanley，H.E.（2003）。金融市场波动中的幂律分布理论。《自然》，423（6937）：267–270。[11] Giada，L.和Marsili，M.（2001年）。数据聚类和相关矩阵的噪声去除。物理。修订版。E、 63（6）：061101。[12] Giada，L.和Marsili，M.（2002年）。最大似然数据聚类算法及其应用。Physica A：统计力学及其应用，315（3）：650–664。[13] Gopikrishnan，P.、Meyer，M.、Amaral，L.和Stanley，H.（1998年）。股票价格变化分布的逆三次定律。欧元。物理。J、 B，3（2）：139–140。[14] 郭，X.，张，H.，和田，T.（2018）。利用互信息和金融大数据开发股票关联网络。《公共科学图书馆》一书，13（4）：e0195941。[15] Hendricks，D.、Gebbie，T.和Wilcox，D.（2016a）。使用时间聚类法检测日内金融市场状态。定量金融，16（11）：1657–1678。[16] Hendricks，D.、Gebbie，T.和Wilcox，D.（2016b）。基于无监督并行遗传算法的紧急市场聚类快速检测。南非科学杂志，112（1/2）：9。[17] Jain，A.K.（2010）。数据聚类：50年超越K均值。模式识别字母，31（8）：651–666。[18] Javed，硕士，Younis，硕士。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-24 13:25:15

S、，Latif，S.，Qadir，J.，andBaig，A.（2018年）。网络中的社区检测：多学科综述。网络与计算机应用杂志，108:87–111。[19] Kalayci，C.B.、Ertenlice，O.和Akbay，M.A.（2019年）。对均值-方差投资组合优化的确定性模型和应用进行全面回顾。ExpertSystems with Applications，125:345–368。[20] Khan，K.、Rehman，S.U.、Aziz，K.、Fong，S.和Sarasvady，S.（2014）。DBSCAN：过去、现在和未来。第五届数字信息和网络技术应用国际会议（ICADIWT2014），第232-238页。[21]Kim，J.、Lee，W.、Song，J.J.和Lee，S.-B.（2017）。随机过程的优化组合聚类。群集计算机，20（2）：1135–1148。[22]Liao，T.W.（2005）。时间序列数据的聚类。模式识别，38（11）：1857-1874。[23]Marsili，M.（2002）。剖析金融市场：部门和国家。定量金融，2（4）：297–302。[24]Marti，G.、Andler，S.、Nielsen，F.和Donnat，P.（2016）。聚类金融时间序列：多长时间足够？《第二十五届国际艺术情报联合会议记录》，IJCAI\'16，第2583–2589页。AAAI出版社。活动地点：美国纽约州纽约市【25】Marti，G.、Nielsen，F.、Bi'nkowski，M.、Donnat，P.（2017）。回顾二十年来金融市场的相关性、层级、网络和集群。arXiv预印本arXiv:1703.00485。[26]Mastromatteo，I.和Marsili，M.（2011）。关于推断模型的临界性。统计力学杂志：理论与实验，2011（10）：P10012。【27】McInnes，L.、Healy，J.和Astels，S.（2017年）。hdbscan：基于层次密度的聚类。开源软件杂志，2（11）：205。【28】McInnes，L.、Healy，J.、Saul，N.和Groiberger，L.（2018）。UMAP：一致流形近似和投影。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝