全部版块 我的主页
论坛 经济学人 二区 外文文献专区
986 42
2022-06-14
英文标题:
《A memory-based method to select the number of relevant components in
  Principal Component Analysis》
---
作者:
Anshul Verma and Pierpaolo Vivo and Tiziana Di Matteo
---
最新提交年份:
2019
---
英文摘要:
  We propose a new data-driven method to select the optimal number of relevant components in Principal Component Analysis (PCA). This new method applies to correlation matrices whose time autocorrelation function decays more slowly than an exponential, giving rise to long memory effects. In comparison with other available methods present in the literature, our procedure does not rely on subjective evaluations and is computationally inexpensive. The underlying basic idea is to use a suitable factor model to analyse the residual memory after sequentially removing more and more components, and stopping the process when the maximum amount of memory has been accounted for by the retained components. We validate our methodology on both synthetic and real financial data, and find in all cases a clear and computationally superior answer entirely compatible with available heuristic criteria, such as cumulative variance and cross-validation.
---
中文摘要:
我们提出了一种新的数据驱动方法来选择主成分分析(PCA)中相关成分的最佳数目。这种新方法适用于时间自相关函数衰减比指数衰减慢的相关矩阵,从而产生长记忆效应。与文献中的其他可用方法相比,我们的方法不依赖于主观评估,并且计算成本较低。其基本思想是使用一个合适的因子模型来分析顺序移除越来越多的组件后的剩余内存,并在保留的组件占用了最大内存量时停止该过程。我们在合成和真实财务数据上验证了我们的方法,并发现在所有情况下,都有一个清晰且计算上优越的答案,完全符合可用的启发式标准,如累积方差和交叉验证。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-14 11:50:24
一种基于内存的方法,用于在主成分分析中选择相关成分的数量Anshul Verma、Pierpaolo Vivoa和Tiziana Di Matteo1,2,3数学系,伦敦国王学院,Strand,London,WC2R 2LS,联合KingdomDepartment of Computer Science,University College London,Gower Street,London,WC1E 6BT,United KingdomComplexity Science Hub Vienna,澳大利亚维也纳1080号Josefst¨adter Strasse 39,邮政编码:anshul。verma@kcl.ac.uk,pierpaolo。vivo@kcl.ac.uk,tiziana。dimatteo@kcl.ac.ukAbstract.我们提出了一种新的数据驱动方法来选择主成分分析(PCA)中相关成分的最佳数量。这种新方法适用于时间自相关函数衰减比指数衰减慢得多的相关矩阵,从而产生长记忆效应。与文献中其他可用的方法相比,我们的方法不依赖于主观评估,并且计算成本较低。其基本思想是使用一个合适的因子模型来分析顺序移除越来越多的组件后的剩余内存,并在保留的组件占到最大内存量时停止该过程。我们在合成和真实财务数据上验证了我们的方法,并在所有情况下找到了一个清晰且计算上优越的答案,该答案完全符合可用的启发式标准,如累积方差和交叉验证。关键词:定量金融、金融网络、数据挖掘内容2内容1简介22主成分分析和保留43个财务数据的最佳主成分数53.1数据结构。53.2市场模式和Marˇcentko Pastur。64长内存75种方法95.1市场模式趋势分析。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 11:50:27
95.2主成分回归。105.3评估记忆贡献。115.4程序摘要。126将我们的方法应用于合成和经验数据146.1合成系统设置。146.2合成和经验数据的结果。157与选择m的其他启发式方法的比较8结论22附录血液数据集23附录B特征向量的财务解释和投资组合优化24附录O类回归26附录Dθ26的拟合程序附录E指数衰减自相关271。简介随着尖端新技术的到来和大数据时代的到来,近年来可生产、处理和存储的数字信息量以前所未有的速度增长。因此,对复杂的后处理工具(能够识别和辨别agiven高维系统的基本驱动特征)的需求变得至关重要。主成分分析(PrincipalComponent Analysis,PCA)旨在降低数据之间的相关矩阵的维数[1,2],在这方面继续被证明是一种非常有价值的方法。PCA已被证明具有从神经科学到金融的广泛应用。例如,在图像处理中,该技术已被证明可用于识别图像的关键颜色混合,以用于压缩[3]。在分子动力学中,研究人员可用的计算能力不断提高,使得模拟更复杂的系统成为可能,PCA有助于检测重要的化学驱动因素[4]。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 11:50:29
大脑的神经元对各种刺激产生不同的反应,因此PCA可用于神经科学,以找到决定这些反应的共同结合特征[5]。在财务方面,数字存储量和可用历史时间序列的长度显著增加。因此,研究价格变化的多变量结构已成为可能,但由于通常构成高端市场的股票数量巨大,主成分分析已成为识别控制价格演变的关键因素的一种有价值的技术【6–8】。在目标是生成原始相关矩阵的可靠但较小的表示的二元性约简方法中,主成分分析扮演着非常重要的角色。其他已知方法包括信息过滤技术【10–15】、自动编码器【16、17】和独立分量分析(ICA)】【18、19】。PCA使用系统相关矩阵的正交基的子集来完成这项任务。连续的主分量(即响应最大特征值的特征向量)提供了正交方向,数据沿该方向最大程度地分布。因为经验相关矩阵的维数可以大到~ 10- 10,一个非常重要的参数是数字m在提供原始数据的真实表示和避免包含不相关的细节之间,应保持最佳平衡。不幸的是,没有关于如何选择最佳值的自然法则, 文献[1,2]中提出了许多启发式程序和所谓的停止准则。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 11:50:33
最常用的方法(第7节中给出了更多详细信息)是i)scree plot s[2 0],ii)累积解释方差[21,22],iii)基于分布的方法[23,24],以及iv)交叉验证[25,26]。然而,它们都有不同但严重的缺点:i)和ii)基本上都是经验法则,几乎没有数据驱动的调整,iii)不允许用户控制最终结果的总体显著水平,因此对于大型数据集来说是不切实际的,并且最终iv),同时更加客观,依赖较少的假设,通常是强制性的。已经采取了改进每个子类的措施,例如更“主观”的方法[20-22],但通常会导致增加更多假设,或者无论如何都无法完全解决问题[1]。与文献中可用的大多数其他方法不同,本文中我们提出了内容4,即利用在许多经验时间序列中存在的长记忆效应来选择最佳数字m在主成分分析中保留的主成分。我们将利用PCA所暗示的自然因素模型(见下文第5.2节),使用最近引入的代理f或记忆强度,评估每个主要成分对时间序列整体“总记忆”的统计贡献【15】。我们测试了我们的建议对合成数据的适用性,即两个具有不同赫斯特指数的分馏高斯噪声过程(见第6.1节),以及一个经验数据集,其详细信息见附录A。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 11:50:36
将我们的基于记忆的方法与文献中的其他启发式标准进行比较,我们发现我们的程序不包括任何主观评估,做出了一组非常小且合理的初始假设,计算强度远低于交叉验证。我们的方法通常适用于长内存数据集的任何(无论多大)相关矩阵。金融时间序列提供了一个典型的例子,众所周知,它显示长记忆效应[28]。这种时间序列的波动性确实构成了风险估计和价格变化动态模型的重要输入[29–31]。然而,常见波动性模型的多元扩展,如多元广义自强条件异方差(GARCH)[32]、随机协方差[33]和实现协方差[34],不符合维度过程,阻碍了它们在实践中的应用。解决这个问题的一种流行方法是,首先将主成分分析应用于波动率之间的相关矩阵,然后使用相关矩阵的简化形式为每个成分建立一个单变量波动率模型,如【6】所示。在气候研究中,主成分分析(PCA)被用来创建“气候指数”,以从广泛的测量范围(包括降水量和温度)确定气候数据中的模式[35]。这里,表面温度等因素显示出长程记忆【36】。在神经科学中,主成分分析可用于发现大量可能的神经元,即与特定反应相对应的神经元,例如昆虫大脑对不同气味的反应。在这种情况下,众所周知,长记忆效应起着重要作用。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群