全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1144 24
2022-06-24
英文标题:
《Capturing Financial markets to apply Deep Reinforcement Learning》
---
作者:
Souradeep Chakraborty
---
最新提交年份:
2019
---
英文摘要:
  In this paper we explore the usage of deep reinforcement learning algorithms to automatically generate consistently profitable, robust, uncorrelated trading signals in any general financial market. In order to do this, we present a novel Markov decision process (MDP) model to capture the financial trading markets. We review and propose various modifications to existing approaches and explore different techniques like the usage of technical indicators, to succinctly capture the market dynamics to model the markets. We then go on to use deep reinforcement learning to enable the agent (the algorithm) to learn how to take profitable trades in any market on its own, while suggesting various methodology changes and leveraging the unique representation of the FMDP (financial MDP) to tackle the primary challenges faced in similar works. Through our experimentation results, we go on to show that our model could be easily extended to two very different financial markets and generates a positively robust performance in all conducted experiments.
---
中文摘要:
在本文中,我们探讨了如何使用深度强化学习算法在任何一般金融市场中自动生成持续盈利、稳健、不相关的交易信号。为了做到这一点,我们提出了一种新的马尔可夫决策过程(MDP)模型来捕捉金融交易市场。我们审查并提出对现有方法的各种修改,并探索不同的技术,如技术指标的使用,以简洁地捕捉市场动态,对市场进行建模。然后,我们继续使用深度强化学习,使代理(算法)能够学习如何在任何市场上独自进行有利可图的交易,同时提出各种方法变更,并利用FMDP(财务MDP)的独特表示来应对类似工作中面临的主要挑战。通过我们的实验结果,我们进一步表明,我们的模型可以很容易地扩展到两个非常不同的金融市场,并在所有进行的实验中产生了积极稳健的性能。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-24 08:16:40
捕捉金融市场以应用深度强化LearningSouradeep Chakraborty*BITS Pilani大学,K.K.Birla GoaCampusf20170170@goa.bits-皮拉尼。ac.in*在Subhamoy Maitra博士的领导下,在ISI CalcuttaJEL的应用统计部门工作:C02、C32、C63、C45Abstracts在本文中,我们探讨了如何使用深度强化学习算法在任何一般金融市场中自动生成一致、可靠、不相关的交易信号。为了做到这一点,我们提出了一种新的马尔可夫决策过程(MDP)模型来捕捉金融交易市场。我们审查并提出对现有方法的各种修改,并探索不同的技术,如技术指标的使用,以简洁地捕捉市场动态,对市场进行建模。然后,我们继续使用深度强化学习,使代理(算法)能够学习如何在任何市场上自行进行可盈利交易,同时提出各种方法变更,并利用FMDP(财务MDP)的独特表示来应对类似工作中面临的主要挑战。通过我们的实验结果,我们进一步表明,我们的模型可以很容易地扩展到两个非常不同的金融市场,并在所有进行的实验中产生积极的稳健性能。关键词:深度强化学习、在线学习、计算金融、Markovdecision过程、金融市场建模、算法交易导入1.1动机自20世纪90年代初以来,人们致力于使用数据和计算自动生成交易,这些数据和计算始终优于基准,并以最小的风险产生持续的正回报。目标开始从“学习如何在金融市场中获胜”转变为“创建一个能够自己学习如何在金融市场中获胜的算法”。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 08:16:43
因此,在这个算法/自动化交易的时代,存在着两大挑战(除其他许多挑战外)——存在干净、可靠(或至少可以使用简单的统计转换轻松修改)的数据,以及一种有效的计算算法,可以生成一致(理想)的利润或可能更有利的交易。随着时间的推移和对干净、易用、免费数据集需求的理解,数据集逐渐演变为可信、完整的数据集。因此,最安全的数据集之一(可靠性和完整性方面)是外汇数据,即时间序列价格数据(每种货币兑换,如美元-印度卢比,在特定日期的成本)。需要注意的一件有趣的事情是,这些数据是动态的,不像表示静态特征的图像,henceone可以理解对在线算法的需要,该算法可以动态工作,并通过每个额外的测试用例来优化自身。机器学习、深度学习和强化学习的出现,使我们能够提出各种算法,能够完全自动地解决图像识别等复杂任务。这促使研究人员和金融机构尝试提出一个用于交易的机器/深度学习框架。因此,花费了数年的研究来合理地建模金融交易任务,但大部分都失败了。(Lopez de Prado 2018)讨论了机器学习对冲基金过去失败的主要原因。21世纪初,深度学习取得了重大进展,许多使用深度学习和强化学习核心原则的混合算法被结合起来,最终提出了一种有效的算法,可以为交易建模——深度强化学习。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 08:16:46
(Arulkumaranet al.,2017)是对DRL的简要调查。大多数强化学习算法的关键应用领域是游戏——在游戏中,算法反复尝试在给定一组决策的情况下选择最佳决策。这个决策过程可以用马尔可夫决策过程建模。这里提到的MDPsia应用的简要概述(White 1993)。然后使用Q-learning解决该MDP,其中学习在环境的每个状态下要采取的最佳行动。DRL应用于此学习过程,为MDP中的每个状态-动作对选择最佳动作。DRL对于Q学习尤其有利,因为数据量巨大或数据严重依赖于时间,所以在诸如随机探索之类的价值迭代过程不可行的场景中,这两种数据都是金融数据集的特征,因此使其成为使用MDP建模的优秀候选者。按照类似的思路,可以将金融交易问题建模为MDP。虽然有很多关于深度强化学习作为MDP解决方案的研究,但作为金融交易应用的深度强化学习是一个相对较新的研究领域,因此,对该主题的研究有限。在这项工作中,我们提出了一种将金融市场建模为MDP的新方法,并提出了一种完全在线的深度强化学习算法来生成评级。1.2财务MDP(FMDP)简介本节假设对强化学习和马尔可夫决策过程有初步了解。有关这些主题的简要回顾,请参阅(Kaelbling、Littman和Moore 1996)和(White 1993)。金融数据环境可以被认为高度依赖于时间,其程度可以被认为是时间的函数。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 08:16:49
因此,此属性可用于开发在线交易算法。巧合的是,马尔可夫过程被定义为捕获整个过去的数据,并在代理的当前状态下定义问题的整个历史。当强化学习问题满足马尔可夫性质时,转移函数(或从一种状态到另一种状态的概率)满足上述条件。从形式上讲,这可以用数学定义如下:P(s+= s′,r+= r|s,a,r…,r,s,a)= P(s+= s′,r+= r|s,a)(1) 因此,我们可以理解金融环境如何很好地融入MDP。例如,一家公司的年度报告刚刚发布,该公司去年亏损严重。无论该公司的历史或商誉如何,这条消息都会对其股价产生负面影响。这种对新事件(以及时间)的高度依赖有助于我们理解在金融环境中,州与州之间的关系在很大程度上取决于当前的州而不是过去的州。1.3主要挑战在本节中,我们介绍了在尝试将深度强化学习应用于金融市场时面临的主要挑战。为这样一项复杂而普遍的任务收集数据是试图为金融市场建模的研究人员面临的主要挑战。这样的任务需要高质量的数据,而且这些数据需要非常详尽,以便agent使用传统的深度强化学习算法进行学习。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 08:16:52
此外,我们还面临“维度诅咒”(Verleysenand Francois 2005),因为所需数据的详尽性,这使得actionexploration对于agent来说是一项具有挑战性且计算成本高昂的任务。1.4预期贡献这项工作旨在探索使用简单的数学修正(称为技术指标)来推断易于获取的数据点(而不是高质量的OHCLV或多仪器数据)。我们期望这些指标能够有效地捕捉市场动态以及特定工具的变动。这使我们能够为马尔可夫决策模型实现更简单的状态空间市场表示。此外,另一个目标是最终设计一个深度强化学习代理,该代理可以学习任何一般金融市场中的最佳稳健、可预测和不相关策略。2方法学这项工作旨在建立在现有模型的基础上,将深度强化学习应用于金融市场,提供合理的修改。我们表明,我们的模型在计算上对训练的要求较低(通过实验和理论分析),因此暴露的耐受性较低。为了实现这一改进,我们使用一种新的方法来描述财务马尔可夫决策过程(FMDP),然后使用深度强化学习来找到其最优策略。该FMDP的建模方式可以解决数据可用性和actionexploration问题。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群