全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1711 35
2022-05-31
英文标题:
《Benchmark Dataset for Mid-Price Forecasting of Limit Order Book Data
  with Machine Learning Methods》
---
作者:
Adamantios Ntakaris, Martin Magris, Juho Kanniainen, Moncef Gabbouj,
  Alexandros Iosifidis
---
最新提交年份:
2020
---
英文摘要:
  Managing the prediction of metrics in high-frequency financial markets is a challenging task. An efficient way is by monitoring the dynamics of a limit order book to identify the information edge. This paper describes the first publicly available benchmark dataset of high-frequency limit order markets for mid-price prediction. We extracted normalized data representations of time series data for five stocks from the NASDAQ Nordic stock market for a time period of ten consecutive days, leading to a dataset of ~4,000,000 time series samples in total. A day-based anchored cross-validation experimental protocol is also provided that can be used as a benchmark for comparing the performance of state-of-the-art methodologies. Performance of baseline approaches are also provided to facilitate experimental comparisons. We expect that such a large-scale dataset can serve as a testbed for devising novel solutions of expert systems for high-frequency limit order book data analysis.
---
中文摘要:
管理高频金融市场中的指标预测是一项具有挑战性的任务。一种有效的方法是通过监控限额订单簿的动态来识别信息边缘。本文描述了第一个公开的用于中期价格预测的高频限价订单市场基准数据集。我们从NASDAQ Nordic股票市场连续十天提取了五只股票的时间序列数据的标准化数据表示,得到了总计约4000000个时间序列样本的数据集。还提供了一个基于日的锚定交叉验证实验协议,可作为比较最先进方法性能的基准。还提供了基线方法的性能,以便于进行实验比较。我们期望这样一个大规模的数据集可以作为设计高频限购簿数据分析专家系统新解决方案的测试平台。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Computational Engineering, Finance, and Science        计算工程、金融和科学
分类描述:Covers applications of computer science to the mathematical modeling of complex systems in the fields of science, engineering, and finance. Papers here are interdisciplinary and applications-oriented, focusing on techniques and tools that enable challenging computational simulations to be performed, for which the use of supercomputers or distributed computing platforms is often required. Includes material in ACM Subject Classes J.2, J.3, and J.4 (economics).
涵盖了计算机科学在科学、工程和金融领域复杂系统的数学建模中的应用。这里的论文是跨学科和面向应用的,集中在技术和工具,使挑战性的计算模拟能够执行,其中往往需要使用超级计算机或分布式计算平台。包括ACM学科课程J.2、J.3和J.4(经济学)中的材料。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Trading and Market Microstructure        交易与市场微观结构
分类描述:Market microstructure, liquidity, exchange and auction design, automated trading, agent-based modeling and market-making
市场微观结构,流动性,交易和拍卖设计,自动化交易,基于代理的建模和做市
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-5-31 12:01:36
使用机器学习方法对LimitOrder Book数据进行中期价格预测的基准数据集Damantios Ntakarisa,*, Martin Magrisb、Juho Kanniaineb、MoncefGabbouja、Alexandros Iosi信号处理分析员、坦佩雷理工大学信号处理分析员、奥胡斯大学工程、电气和计算机工程系坦佩雷、芬兰布拉工业和信息管理实验室、坦佩雷理工大学信号处理分析员,Ingelehmans Gade 10,Aurhus,DenmarkAbstracts管理高频金融市场中的指标预测是一项艰巨的任务。一种有效的方法是监控limitorder book的动态,以识别信息边缘。本文描述了高频限价订单市场的首次公开基准数据集,用于价格预测。我们从NASDAQ Nordic股票市场连续十天提取了五只股票的timeseries数据的标准化数据表示,得出了以下数据集:≈总计4000000个时间序列示例。还提供了一个基于日的锚定交叉验证实验协议,该协议可作为比较最新方法性能的基准。还提供了基线方法的性能,以便于实验比较。我们期望这样一个大规模的数据集可以作为设计高频限购簿数据分析专家系统新解决方案的测试平台。关键词:高频交易、限价指令簿、中间价、机器学习、岭回归、单隐前馈神经网络1。当全球大多数交易所采用EDIT时,自动化交易成为现实。这种环境非常适合高频交易者。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 12:01:38
高频交易(HFT)和集中匹配引擎(称为限额订单(LOB))是生成大数据Seddon&Currie(2017)的主要驱动力。在本文中,我们描述了一个新的订单数据集,该数据集由五只股票连续十个交易日的大约400万个事件组成。*相应的authorE邮件地址:adamantios。ntakaris@tuni.fi(Adamantios Ntakaris)预印本于2020年3月12日提交给《预测杂志》。数据来源于纳斯达克OMX Nordicand提供的瘙痒提要,由按时间顺序排列的消息序列组成,这些消息跟踪并记录特定市场中发生的所有事件。它提供了十个交易日的完整市场历史记录。此外,我们制定了一个实验方案,以评估研究方法在中期价格预测中的表现。数据集(如本文所示)面临着挑战,包括选择适当的数据转换、规范化、描述和分类。这种类型的海量数据集需要对可用信息有很好的理解,这些信息可以提取出来进行进一步处理。正如Kercheval&Zhang(2015)最近提出的那样,我们遵循信息边缘。作者详细描述了可用于中等价格变动预测指标的代表性。根据这种数据表示,他们采用基于支持向量机(SVM)的非线性分类,以预测该指标的变化。这种监督学习模型利用类标签进行短期和长期预测。然而,他们基于4000个样本的非常小的数据集(与可用于此类应用程序的数据大小相比)来训练他们的模型。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 12:01:42
这是由于许多基于非线性核的分类模型的局限性,这些模型与训练数据大小的时间和空间复杂性有关。另一方面,Sirignano(2016)使用大量数据进行基于前馈网络的非线性分类。作者利用数据的局部空间结构,根据LOB的当前状态,对LOB状态的联合分布进行建模。尽管公共可用数据集对于HFT领域的AdvancengResearch非常重要,但没有用于方法评估目的的详细公共可用基准数据集。在本文中,我们描述了基于LOB的HFT的首次公开可用数据集,该数据集的收集旨在促进该领域的未来研究。基于Kercheval&Zhang(2015),我们为五个分类问题提供了大约400000个交易事件和注释的时间序列表示。还提供了两种广泛使用的方法,即线性和非线性回归模型的基线结果。通过这种方式,我们向专家系统社区(expert systemscommunity)介绍了这个新问题,并为促进未来的研究提供了一个测试平台。我们希望,吸引专家系统的兴趣将导致在所提供的数据集中实现的性能的快速提高,从而为这一重要问题提供更好的最新解决方案。本文中描述的数据集对金融专家系统非常有用。MID价格是最佳出价和最佳要价的平均值。标签从专家提供的注释中提取,代表中间价的方向。定义了三种不同的状态,即向上、向下和平稳运动。作者所说的局部变动是指未来价格的有条件变动(例如。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 12:01:46
最佳询价价格变动)取决于当地的当前LOB状态。数据集可从以下位置下载:http://urn.fi/urn:nbn:fi:csckata20170601153214969115有两种方式。首先,它可以用来确定市场稳定的环境,这对于流动性提供者(做市商)进行利差非常重要。因此,这样一个智能系统作为一个可以增加流动性供应的框架是有价值的。其次,数据分析可用于投机性交易者的模型选择,投机性交易者根据对市场走势的预测进行交易。在未来的研究中,本文可用于识别订单簿欺骗,即市场受到限价订单操纵的情况。在这种情况下,欺骗者可能会通过限制在订单完成之前取消的订单来将市场推向特定方向。因此,本研究不仅对做市商和交易者有意义,而且对监管者和监管者也有意义。因此,目前的工作有以下贡献:1)据我们所知,这是第一个公开的LOB-ITCH数据集,用于预测中等价格变动的机器学习实验。2) 我们提供了基于岭回归的基线方法和基于k均值算法的RBF神经网络的新实现。3) 本文为做市商、交易员和监管机构提供了关于预测中间价变动的信息。本文没有提出任何交易策略,仅依赖于纯机器学习指标预测。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 12:01:50
总的来说,这项工作是对高频交易和机器学习应用带来的挑战的一次实证探索。纳斯达克赫尔辛基证券交易所(Nasdanq Helsinki Stock Exchange)的数据提供了重要的收益。在美国,给定资产的限额指令分布在多个交易所之间,导致流动性分散。这种分散性给实证研究带来了一个问题,因为正如Gould等人(2013)所指出的,“不同交易平台的匹配规则和交易成本之间的差异使相同集合的不同限额订单簿之间的比较变得复杂。”从分散程度较低的纳斯达克北欧市场获得的数据中不存在这些与分散相关的问题。此外,赫尔辛基交易所是一个纯粹的限价指令市场,做市商的作用有限。论文的其余部分组织如下。我们在第2节中对该领域进行了全面的文献回顾。第3节提供了数据集和实验说明。第4节提供了新数据集以及相关数据源的定量和定性比较。在第5节中,我们描述了基线的工程设计。第6节给出了实证结果,第7节得出结论。HFT和LOB的机器学习HFT和LOB空间的复杂性适合跨学科研究。在本节中,我们将全面回顾最近开发机器学习方法的方法。回归模型、神经网络和其他几种方法已经被提出来推断股票市场。现有文献的范围从度量预测到最佳交易策略识别。研究界试图从不同角度应对预测和数据推断的挑战。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群