全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1077 11
2022-06-09
英文标题:
《Cluster analysis of stocks using price movements of high frequency data
  from National Stock Exchange》
---
作者:
Charu Sharma (Shiv Nadar University, UP), Amber Habib (Shiv Nadar
  University, UP), Sunil Bowry (Shiv Nadar University, UP)
---
最新提交年份:
2018
---
英文摘要:
  This paper aims to develop new techniques to describe joint behavior of stocks, beyond regression and correlation. For example, we want to identify the clusters of the stocks that move together. Our work is based on applying Kernel Principal Component Analysis(KPCA) and Functional Principal Component Analysis(FPCA) to high frequency data from NSE. Since we dealt with high frequency data with a tick size of 30 seconds, FPCA seems to be an ideal choice. FPCA is a functional variant of PCA where each sample point is considered to be a function in Hilbert space L^2. On the other hand, KPCA is an extension of PCA using kernel methods. Results obtained from FPCA and Gaussian Kernel PCA seems to be in synergy but with a lag. There were two prominent clusters that showed up in our analysis, one corresponding to the banking sector and another corresponding to the IT sector. The other smaller clusters were seen from the automobile industry and the energy sector. IT sector was seen interacting with these small clusters. The learning gained from these interactions is substantial as one can use it significantly to develop trading strategies for intraday traders.
---
中文摘要:
本文旨在开发新的技术来描述股票的联合行为,超越回归和相关性。例如,我们想要识别一起移动的股票集群。我们的工作基于将核主成分分析(KPCA)和功能主成分分析(FPCA)应用于NSE的高频数据。由于我们处理的高频数据的刻度大小为30秒,FPCA似乎是一个理想的选择。FPCA是PCA的一个函数变体,其中每个采样点被视为希尔伯特空间L^2中的一个函数。另一方面,KPCA是使用核方法对PCA的扩展。从FPCA和高斯核PCA得到的结果似乎是协同的,但有滞后性。在我们的分析中,有两个突出的集群,一个对应于银行业,另一个对应于IT业。其他较小的集群来自汽车行业和能源部门。IT部门被视为与这些小型集群相互作用。从这些互动中获得的知识是非常重要的,因为人们可以利用这些知识为日内交易者制定交易策略。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--
一级分类:Statistics        统计学
二级分类:Computation        计算
分类描述:Algorithms, Simulation, Visualization
算法、模拟、可视化
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-9 20:54:37
标题:利用国家证券交易所高频数据的价格变动对股票进行聚类分析。摘要:本文旨在开发新的技术来描述股票的联合行为,超越回归和相关性。例如,我们想要识别一起移动的股票集群。我们的工作基于将核主成分分析(KPCA)和功能主成分分析(FPCA)应用于NSE的高频数据。由于我们处理的高频数据的刻度大小为30秒,FPCA似乎是一个理想的选择。FPCA是PCA的一种功能变体,其中每个采样点被视为希尔伯特空间中的一个函数. 另一方面,KPCA是使用核方法对PCA的扩展。从FPCA和高斯核PCA得到的结果似乎是协同的,但有滞后性。在我们的分析中,有两个突出的集群,一个对应于银行业,另一个对应于IT业。其他较小的集群来自汽车行业和能源部门。IT部门被视为与这些小型集群相互作用。从这些互动中获得的知识是非常重要的,因为人们可以利用这些知识为日内交易者制定交易策略。关键词:金融数学、统计学、高频交易、大数据分析、人工智能。作者:Charu Sharma,博士生,助理教授,希夫纳达尔大学自然科学学院,UP;Amber Habib教授,Shiv Nadar大学自然科学学院教授,UP;Sunil Bowry教授,Shiv Nadar大学管理与创业学院教授,UP。地址:查鲁·夏尔马,A111D,Shiv Nadar大学,NH91,Tehsil Dadri,Gautam Buddha Nagar,Uttar Pradesh–201314。电话:+91-9911750311,电子邮件:charu。sharma@snu.edu.in我
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-9 20:54:40
简介根据英国布鲁克·诺特斯公司(Brookernotes)的一份报告,在所有在线交易股票的人中,大约三分之一来自亚洲。事实上,在亚洲320万贸易商中,有57万人的总部位于印度。有鉴于此,需要逐点了解股票之间的相互作用。在影响股票价格变动的各种因素中,其他股票价格变动是主要影响因素之一。多年来。研究人员使用了回归分析和相关性等技术来了解股票的共同走势,但也使用了日收益率。在本文中,我们试图利用股票之间的相互作用,在逐笔交易的水平上,每一笔交易都是一个30秒的标记。我们使用的技术是著名的分类技术主成分分析的扩展。此外,当工作数据集中的样本点可以视为函数时,可以考虑使用PCA的函数模拟,称为函数PCA,而不是使用常规PCA进行分类。在过去的二十年中,函数数据分析领域取得了巨大的发展。函数数据分析是统计学的一个分支,处理将每个样本点视为函数的数据。在过去二十年中,Ramsay和Silverman2-7在FDA领域展示了许多实际应用。由于我们处理的是高频数据,因此我们可以将样本点视为函数,而不是一组离散的值,因此FPCA看起来是对股票进行分类的好选择。本文使用的第二种技术是基于核的主成分分析(KPCA)。该方法用于利用任何数据的非线性。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-9 20:54:43
将数据集移动到更高维空间,在该空间中,新的点集服从线性,因此可以在此新的点集上执行PCA。二、主成分分析、FPCA、KPCA主成分分析是卡尔·皮尔逊在20世纪初引入的。主成分分析是一种数据约简和分类技术。在这种技术下,如果我们有n个具有k个特征的样本点(通常k>n),那么我们的目标是找到与这些n个样本点在特征空间中的线性跨度相对应的子空间的基础. 很明显,该子空间的维数将小于或等于n。此外,我们希望将基本元素按顺序放置,以便第一个基本元素是导致样本点之间差异的主要因素,第二个基本元素是下一个主要因素,依此类推。在寻找这样一个基的过程中,发现基元素只是特征空间中协方差矩阵的特征向量。这样就可以对协方差矩阵进行奇异值分解,找到其特征向量和相应的特征值。这些基本要素被称为主成分。现在,如果可以将特征视为一个连续统,例如,以固定的时间间隔(每秒或每分钟)测量的量,那么可以将数据视为平滑函数,而不是离散函数。在这种情况下,我们的n个采样点可以被视为n个函数,如果假设这些函数在 , 然后,再次在中找到这些n个采样点的线性范围的基础.当然,基本元素必须满足与主成分分析相同的顺序。PCA的这种变体称为FPCA。在我们的情况下,因为我们正在处理每30秒采集的高频数据;因此,使用FPCA似乎是合理的。一旦我们得到了基础,我们就把数据表示为主成分的线性组合。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-9 20:54:46
然后,我们使用k-means聚类等聚类算法将数据分为不同的组。然而,K均值聚类有时无法考虑数据的非线性(若存在)。因此,我们尝试的下一种方法是PCA的非线性扩展,称为核主成分分析(KPCA)。这里的想法是,如果数据在   然而,在更高的维度中,它几乎总是可以线性分离的。定义地图      这样我们在这张地图下的数据在. 我们通过应用带高斯核的FPCA和KPCA对数据进行了分析,并总结了获得的结果。三、 数据描述我们从国家证券交易所(National Stock Exchange)选取了2014年的逐笔数据。我们从当年在CNX100指数中上市的股票开始。最初,CNX100指数中列出的100只股票均被挑选,但在分析过程中,由于数据值不足或数据缺失,有11只股票下跌。CNX100指数,由Nifty50和CNX Nifty初级股组成。表1给出了组成的详细信息。此外,市场上午9点开放,营业时间至下午4点,但活跃交易时段为9:30至3:30。考虑到这一点,在我们的分析中,我们每天6小时从上午9:30到下午3:30采集数据。每30秒被视为一个滴答声,因此每天我们每只股票有720个滴答声点。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-9 20:54:50
对于每种股票,计算每30秒的成交量加权平均价格(VWAP),并用于进一步分析。行业类型CNX100的库存数量工业制造水泥和水泥产品服务Sautomobileconsumer Goodspharma金融服务EnergyMetalstelecomconstructionchemicalsittable 1:指数CNX100的组成,2014年考虑的股票数量2014年活跃交易日数每个股票的每日滴答数数据量1,46,74320表2:数据摘要IV.方法和分析过去,许多研究人员使用相关系数来了解股票之间的网络。我们以同样的方式开始分析。一次抽取两只股票,并计算2014年每个工作日每3916对股票的Spearman秩相关系数。每天有720只蜱。图1给出了这些相关系数的样本。图1给出了每个月第一个交易日各股票之间的相关系数。表3总结了图1。对于这些对中的大多数,观察到相关系数小于0.5,事实上它们低至0.2。该分析的一个关键观察结果是,12次中有8次,相关系数的最大值虽然很小,但出现在PNB和巴罗达银行之间。两家国有跨国银行甚至在30秒的刻度上携手前行。我们通过每天运行k-means算法229天来进一步研究这一点,以距离度量为     . 在计算了每3916对的汉明距离之后。相同长度的两个向量之间的汉明距离是对应值不同的位置数。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群