全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1337 20
2022-05-11
英文标题:
《Clustering Financial Time Series: How Long is Enough?》
---
作者:
Gautier Marti, S\\\'ebastien Andler, Frank Nielsen, Philippe Donnat
---
最新提交年份:
2016
---
英文摘要:
  Researchers have used from 30 days to several years of daily returns as source data for clustering financial time series based on their correlations. This paper sets up a statistical framework to study the validity of such practices. We first show that clustering correlated random variables from their observed values is statistically consistent. Then, we also give a first empirical answer to the much debated question: How long should the time series be? If too short, the clusters found can be spurious; if too long, dynamics can be smoothed out.
---
中文摘要:
研究人员利用30天到几年的每日收益率作为源数据,根据它们的相关性对金融时间序列进行聚类。本文建立了一个统计框架来研究这种做法的有效性。我们首先表明,从观测值中聚类相关随机变量在统计学上是一致的。然后,我们也给出了一个备受争议的问题的第一个实证答案:时间序列应该是多长?如果太短,发现的簇可能是虚假的;如果时间太长,动态可以被平滑。
---
分类信息:

一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--
一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-5-11 01:04:09
聚类金融时间序列:多长时间足够?Gautier MartiHellebore Capital LtdEcole PolytechniqueS’ebastien and Lerens de LyonHellebore Capital LtdFrank NielsenEcole PolytechniqueLIX-UMR 7161 Philippe DonnatHellebore Capital LTDmitchelin House,Londona摘要研究人员使用30天到几天的每日收益作为源数据,根据其相关性对金融时间序列进行聚类。本文建立了一个统计框架来研究这种做法的有效性。我们首先表明,从概率值中聚类相关随机变量在统计上是一致的。然后,我们也给出了一个模糊问题的第一个实证答案:时间序列应该是多长?如果太短,发现的簇可能是虚假的;如果时间太长,动态可以被平滑。1简介聚类可以非正式地描述为在子集(也称为簇)中对对象进行分组的任务,以使同一簇中的对象比不同簇中的对象更相似。由于聚类任务很难形式化[Kleinberg,2003],因此设计一种在任何情况下都能完美解决它的聚类算法似乎有些牵强。然而,在对数据进行强大的数学假设的情况下,如统计一致性,即更多的数据意味着更高的准确性,并且在有限的范围内是一个完美的解决方案,已经证明:从Hartigan的单连锁证明[Hartigan,1981]和Pollard的k-均值一致性证明[Pollard等人,1981]到最近的工作,如光谱聚类的一致性[Von Luxburg等人,2008],或修改的k-均值[Terada,2013;Terada,2014]。这些研究论文假设,洪水点是从维度T固定的潜在概率分布中独立采样的。集群可以被视为高密度区域。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-11 01:04:14
它们表明,在大样本极限下,N→ ∞, 由该算法构造的聚类序列收敛到整个底层空间的聚类。当我们考虑时间序列的聚类时,另一个渐近性很重要:N固定和T→ ∞.簇收集在时间上表现相似的对象。据我们所知,很少有研究人员研究过这种渐近性:[Borysov等人,2014]表明,当维度T增长到从二维高斯分布N(u,σIT)和N(u,σIT)的混合物中正确收集N=N+m个观测值时,三种分层聚类算法是一致的。[Ryabko,2010;Khaleghi等人,2012]根据聚类过程的分布证明了k-均值的一致性。在这项工作中,受金融时间序列聚类的推动,我们将根据随机变量的概率相关性,从它们的T观测值中考虑聚类N个随机变量的一致性。对于金融应用,在进一步处理(如投资组合选择)之前,聚类通常被用作辅助块[Tola等人,2008]。在成为实践者的主流方法之前,必须提供理论保证,确保该方法是可靠的。在这项工作中,我们首先表明,聚类方法在理论上是有效的,但在处理有限长度的时间序列时,应采取额外措施:收敛速度取决于许多因素(基本相关结构、分类间的分离、基本收益分布)和实施选择(相关系数、聚类算法)。由于金融时间序列被认为仅在短期内具有近似系统性,因此需要大量样本来恢复基础聚类的聚类方法在实践中不太可能有用,并且可能会产生误导。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-11 01:04:18
第5节,我们在模拟的时间序列上说明了几种聚类方法获得的经验收敛率。符号oX,XNunivariate random variablesoXtiis变量Xi的t观测oX(t)iis Xi的t排序观测ofx是X的累积分布函数oρij=ρ(Xi,Xj)Xi之间的相关性,Xjodij=d(Xi,Xj)Xi之间的距离,Xjodij=d(Ci,Cj)群集之间的距离,CjoPk={C(k),…,C(k)lk}是X的一个分区,XNoC(k)(Xi)表示分区Pkok∑k中的Xi的簇∞= maxij∑ijoX=Op(k)表示X/k是随机有界的,即。ε > 0, M>0,P(|X/k |>M)<ε2.层次相关块模型2。1关于金融时间序列的程式化事实自从[Mantegna,1999]的开创性工作以来,已经针对不同的市场(例如股票、外汇、信用违约掉期[Marti等人,2015])多次验证了交易资产的价格-时间序列具有层次关联结构。另一个众所周知的程式化事实是日常资产回报的非高斯性[Cont,2001]。这些经验特性推动了第2.2节中描述的替代相关系数的使用,以及第2.3.2.2节中提出的层次相关块模型(HCBM)的定义依赖性和相关系数最常见的相关系数是由ρ(X,Y)=E[XY]定义的皮尔逊相关系数-E[X]E[Y]pE[X]- E[X]pE[Y]- E[Y](1)可以通过^ρ(X,Y)=PTt=1(Xt)来估计-十) (Yt)- Y)qPTt=1Xt- 十、qPTt=1Yt- Y(2) 其中X=TPTt=1x是X的经验平均值。该系数存在几个缺点:它只测量两个变量之间的线性关系;它不是稳健的音调,如果其中一个变量的分布具有有限的秒矩,则可能无法确定。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-11 01:04:22
更稳健的相关系数是基于copula的依赖性度量,如Spearman的ρs(X,Y)=12ZZC(u,v)dudv- 3(3)=12 E[FX(X),FY(Y)]- 3(4)=ρ(FX(X),FY(Y))(5)及其统计估计^ρS(X,Y)=1-T(T- 1) TXt=1X(t)- Y(t). (6) 这些相关系数对噪声具有鲁棒性(因为rankstatistics将异常值标准化),对随机变量的单调变换具有不变性(因为基于copula的度量得益于概率积分变换fx(X))~ 2.3 HCBM模型我们假设N个单变量随机变量x,Xn遵循分层相关块模型(HCBM)。该模型由具有分层块结构的相关矩阵组成[Balakrishnan等人,2011],[Krishnamurthy等人,2012]。每个块对应一个我们想要用聚类算法恢复的相关聚类。在图1中,我们显示了HCBM的相关矩阵。请注意,在实践中,人们并没有观察到左图中显示的分层块对角结构,而是观察到一个与右图中显示的相似的相关矩阵,该矩阵与左图中的相关矩阵相同,直到数据的排列。HCBM定义了一组嵌套分区sp={P P . . .  Ph}对于一些h∈ [1,N],其中Pis是平凡分区,分区Pk={C(k),…,C(k)lk},和flki=1C(k)i={X,…,XN}。所有人1≤ K≤ h、 我们定义ρ和ρk,对于所有1≤ i、 j≤ N、 我们有ρk≤ ρij≤ ρkwhen C(k)(Xi)=C(k)(Xj)和C(k+1)(Xi)6=C(k+1)(Xj),即ρ和ρ分别是深度k处分区pk中所有簇sc(k)内的最小和最大相关性。为了有一个适当的相关性层次,我们必须对所有k有ρk<ρk+1。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-11 01:04:27
根据上下文,它可以是Spearman或Pearsoncorrelation matrix。图1:(左)层次相关块模型;(右)观察到的相关矩阵(在HCBM之后)与左矩阵相同,直到数据的排列,而不丧失一般性,为了便于演示,我们将考虑具有K个sizen块的一级HCBM,nkpki=1ni=N。我们稍后将解释如何将结果扩展到一般的HCBM。我们还考虑关联距离矩阵d,其中dij=1-ρij。实际上,聚类方法应用于距离矩阵d的统计估计,即^dij=dij+ij,在哪里这些噪声来自于相关性的统计估计。3.聚类方法3。1有趣的算法聚类数据的文献中存在许多范例。在这项工作中,我们只考虑硬(与软)聚类方法,即生成数据分区的算法(与将多个聚类分配给给定数据点的方法相反)。在硬聚类家族中,我们可以将这些算法分类为分层聚类方法(生成数据的嵌套分区)和fl-at-clustering方法(生成单个分区),例如k-means。我们将考虑进一步细分层次聚类的有限Lance Williams家族,因为许多流行算法,如单连锁、完全连锁、平均连锁(UPGMA)、McQuitty连锁(WPGMA)、中值连锁(WPGMC)、质心连锁(UPGMC)和Ward方法都是该家族的成员(参见表1[Murtagh and Contreras,2012])。这将使我们能够更简洁、统一地处理这些算法的一致性证明。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群