全部版块 我的主页
论坛 经济学人 二区 外文文献专区
877 32
2022-06-24
英文标题:
《Agglomerative Likelihood Clustering》
---
作者:
Lionel Yelibi, Tim Gebbie
---
最新提交年份:
2021
---
英文摘要:
  We consider the problem of fast time-series data clustering. Building on previous work modeling the correlation-based Hamiltonian of spin variables we present an updated fast non-expensive Agglomerative Likelihood Clustering algorithm (ALC). The method replaces the optimized genetic algorithm based approach (f-SPC) with an agglomerative recursive merging framework inspired by previous work in Econophysics and Community Detection. The method is tested on noisy synthetic correlated time-series data-sets with built-in cluster structure to demonstrate that the algorithm produces meaningful non-trivial results. We apply it to time-series data-sets as large as 20,000 assets and we argue that ALC can reduce compute time costs and resource usage cost for large scale clustering for time-series applications while being serialized, and hence has no obvious parallelization requirement. The algorithm can be an effective choice for state-detection for online learning in a fast non-linear data environment because the algorithm requires no prior information about the number of clusters.
---
中文摘要:
我们考虑了快速时间序列数据聚类问题。在对基于关联的自旋变量哈密顿量建模的基础上,我们提出了一种更新的快速非昂贵凝聚似然聚类算法(ALC)。该方法将基于优化遗传算法的方法(f-SPC)替换为凝聚式递归合并框架,该框架受到了经济物理学和社区检测领域先前工作的启发。该方法在具有内置聚类结构的噪声合成相关时间序列数据集上进行了测试,结果表明该算法产生了有意义的非平凡结果。我们将其应用于多达20000个资产的时间序列数据集,并认为ALC可以在序列化的同时减少时间序列应用程序大规模集群的计算时间成本和资源使用成本,因此没有明显的并行化要求。由于该算法不需要关于聚类数目的先验信息,因此可以作为快速非线性数据环境中在线学习状态检测的有效选择。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--
一级分类:Physics        物理学
二级分类:Data Analysis, Statistics and Probability        数据分析、统计与概率
分类描述:Methods, software and hardware for physics data analysis: data processing and storage; measurement methodology; statistical and mathematical aspects such as parametrization and uncertainties.
物理数据分析的方法、软硬件:数据处理与存储;测量方法;统计和数学方面,如参数化和不确定性。
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-24 13:23:45
聚集似然聚类法*和Tim Gebbie+南非开普敦大学统计科学系,Rondebosch 7701(日期:2021 10月6日),我们考虑了快速时间序列数据聚类的问题。在对基于关联的自旋变量哈密顿量建模的基础上,我们提出了一种更新的快速非代价聚集似然聚类算法(ALC)。该方法将基于优化遗传算法的方法(f-SPC)替换为凝聚式递归合并框架,该框架受到了经济物理学和社区检测领域先前工作的启发。该方法在具有内置聚类结构的噪声合成相关时间序列数据集上进行了测试,结果表明该算法产生了有意义的非平凡结果。我们将其应用于多达20000个资产的时间序列数据集,并认为ALC可以在序列化的同时减少时间序列应用程序大规模集群的计算时间成本和资源使用成本,因此没有明显的并行化要求。该算法对于快速非线性数据环境中在线学习的状态检测是一种有效的选择,因为该算法不需要关于聚类数的先验信息。PACS编号:05.10。Ln,75.10。Nr,89.65。GhI。简介总结从具有未知动态演化和非线性交互的环境中采样的大量快速实时特征时间序列数据需要某种无监督学习。先前的工作[47]探讨了金融市场数据背景下的无监督统计学习问题,其中显示了从数据快速近似超顺磁性团簇结构的能力[2,11]。具体而言,该算法在熵极大值附近恢复了正确的超顺磁团簇结构。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 13:23:49
以前的案例研究包括股票数据聚类[47]和[12]中的基因数据,金融市场的时间状态[23],以及交易中自适应机器学习的状态检测[15]。这种快速大数据集群技术的潜在使用案例数不胜数。以前实现的关键问题与非常大的数据集的计算时间有关。在先前工作的基础上,我们提出并演示了一种快速超顺磁聚类(fSPC)的替代方案【47】,该方案采用了【12】中首次提出的“合并算法”的现代简化实现,该算法可以恢复相同或更好的聚类配置,但计算时间显著减少。该算法在精神上类似于网络科学社区检测算法[4,36]。股票市场相关矩阵的结构分析构成了经济物理学、定量金融和网络科学的一大研究主体。代表*莱昂内尔。yelibi@alumni.uct.ac.za+tim。gebbie@uct.ac.zaFor回顾过去20年来基于金融市场相关性的数据聚类(见[25]),更一般的数据聚类(见[17]),尤其是时间序列聚类(见[1,22])。从网络的角度来看,金融资产之间的关系已成为探索、洞察和可视化各种聚合动态过程对资产的集体影响的越来越有用的方法;无论是市场崩溃的影响,还是投资组合优化的迭代应用的影响。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 13:23:53
这很方便,因为图形可以用邻接矩阵表示,相关矩阵可以在处理之前映射到网络数据;这里通过了社区检测算法。网络数据通常由稀疏矩阵表示,这在操作上可以被视为数据聚类和社区检测之间的主要差异,即表示上的差异。为了将相关矩阵映射到邻接矩阵中,应用了阈值isoften[30、41、48]。链接或取消链接相关节点的阈值是任意的。然而,这会给金融资产图的研究增加一层复杂性,同时也是一个额外的噪声源,与控制集合或对象之间关系的动态过程几乎没有关系。我们的方法不同于基于阈值的方法,因为它是一个faithfuldata聚类模型,可与密集的相关矩阵一起工作–这可以使其适用于噪声环境中的复杂系统,但无需任意选择阈值。在此,我们再次利用了Giada和Marsili提出的Noh-Ansatz[31]和最大似然估计(MLE)方法[11,12]。我们称之为新算法凝聚似然聚类(ALC);与之前在[15、16、47]中实现的并行遗传算法(PGA)相比,它的优点是计算成本更低。性能增强源于能够将算法序列化为跨集群配置的蛮力搜索,以避免不必要的计算开销。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 13:23:56
f-SPC的实现。论文内容如下:在第(II)节中,我们介绍了Giada Marsili模型,在第(III)节中,我们描述了优化算法,在第(IV)节中,我们考虑了合成生成的时间序列数据的聚类,在第(V)节中,当信噪比相对较低时,我们提供了额外的工具,第(VI)节探讨了具有嵌套块结构的复杂相关矩阵的解决方案恢复,第(VII)节讨论并比较了我们的新方法执行运行时与以前的算法和HDBSCAN,然后是第(VIII)节的讨论和结论,强调了我们介绍的算法的性能。二、GIADA-MARSILI似然模型股票市场相关性矩阵的谱分析提供了一种以Nohansatz[31]为形式的直觉:在金融市场中存在一种层次结构,其中单个股票是较大资产组的子组成部分,每个资产的个别回报率受其所属资产集合的影响。这可以用一个简单的生成模型来表示【31】:xi=fi+i(1)夏尔股票的特征、集群相关影响,以及i节点的特定影响。反过来,这种生成模型可以迭代地嵌套在一组更复杂的独立层次结构中,通过存在自上而下和自下而上因果关系的未知噪声项进行扩展【40,43】。在这里,我们将自己限制在一个单独的集合中,该集合被分成多个组,并使用一个简单的噪声术语来解释无法解释的外部性。我们考虑一组嵌入在aspace中的N个观测值,每个观测值都被赋予一个自旋值,每个观测值的维数为D。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 13:23:58
ansatzmodels的一个版本的观测特征是xi=gsiηsi+q1- gsi公司i(2)其中xi是一个特征,即簇内耦合参数,η是簇相关影响,以及itheobservation的特定影响和测量误差。A方差分析产生额外的术语,如聚类的结构和聚类内的相关性。我们明确提到,必须强制执行ns<cs<ns:需要下限,因为未定义cs值的gsi≤ ns和上限要求热平均hgsi可用于重建具有与原始时间序列相同的统计特征的数据集,使用Eqn。(2) 【11】此处ns=PNi=1δsi,s,cs=PNi=1PNj=1Cijδsi,sδsj,s,gs=qcs-NSN-ns【11,15】。一个严格不等式,因为方程。(4) 当S=ns时为未定义。我们引入Dirac delta函数来模拟在临界状态下观测数据的概率【26】:P=DYd=1NYi=1*δ(xi- (gsiηsi+q1- gsi公司i) )+。(3) 这种联合可能性是每个观测值和每个特征的聚类配置与观测数据相匹配的概率。从P导出的对数似然可以看作这个Pottssystem的哈密顿量【44】:Lc=Xs:ns>1lnnscs+(ns- 1) lnns公司- NSN- 反恐精英. (4) 计算每个特征的总和,并表示数据中存在的结构量。LCI的值通过NSA和cs间接依赖于自旋。相对于大多数行业标准备选方案,该方法有以下优点:首先,LCI完全依赖于Cij,数据集的维数仅在计算Cij中起作用。其次,它是自适应的:与K-MEANS(38)或类似算法不同,簇的数量不作为输入。聚类配置是随机生成的,而最大化LCS的配置为我们提供了聚类的数量及其组成。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群