全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1108 17
2022-06-10
英文标题:
《Financial Trading as a Game: A Deep Reinforcement Learning Approach》
---
作者:
Chien Yi Huang
---
最新提交年份:
2018
---
英文摘要:
  An automatic program that generates constant profit from the financial market is lucrative for every market practitioner. Recent advance in deep reinforcement learning provides a framework toward end-to-end training of such trading agent. In this paper, we propose an Markov Decision Process (MDP) model suitable for the financial trading task and solve it with the state-of-the-art deep recurrent Q-network (DRQN) algorithm. We propose several modifications to the existing learning algorithm to make it more suitable under the financial trading setting, namely 1. We employ a substantially small replay memory (only a few hundreds in size) compared to ones used in modern deep reinforcement learning algorithms (often millions in size.) 2. We develop an action augmentation technique to mitigate the need for random exploration by providing extra feedback signals for all actions to the agent. This enables us to use greedy policy over the course of learning and shows strong empirical performance compared to more commonly used epsilon-greedy exploration. However, this technique is specific to financial trading under a few market assumptions. 3. We sample a longer sequence for recurrent neural network training. A side product of this mechanism is that we can now train the agent for every T steps. This greatly reduces training time since the overall computation is down by a factor of T. We combine all of the above into a complete online learning algorithm and validate our approach on the spot foreign exchange market.
---
中文摘要:
一个能从金融市场产生持续利润的自动程序对每个市场从业者来说都是有利可图的。深度强化学习的最新进展为此类交易代理的端到端培训提供了一个框架。本文提出了一种适用于金融交易任务的马尔可夫决策过程(MDP)模型,并用最先进的深度递归Q网络(DRQN)算法进行求解。我们对现有的学习算法进行了一些修改,使其更适合金融交易环境,即1。与现代深度强化学习算法中使用的重播内存(通常为数百万)相比,我们使用的重播内存非常小(只有几百个大小)2、我们开发了一种动作增强技术,通过向代理提供所有动作的额外反馈信号来缓解随机探索的需要。这使我们能够在学习过程中使用贪婪策略,与更常用的epsilon贪婪探索相比,它显示出强大的经验性能。然而,在一些市场假设下,这种技术是特定于金融交易的。3、我们对一个较长的序列进行采样,以进行递归神经网络训练。这种机制的一个副产品是,我们现在可以为每个T步骤训练代理。这大大减少了训练时间,因为总体计算量减少了一倍。我们将以上所有内容结合到一个完整的在线学习算法中,并在即期外汇市场上验证了我们的方法。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Trading and Market Microstructure        交易与市场微观结构
分类描述:Market microstructure, liquidity, exchange and auction design, automated trading, agent-based modeling and market-making
市场微观结构,流动性,交易和拍卖设计,自动化交易,基于代理的建模和做市
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-10 06:26:53
金融交易作为游戏金融交易作为游戏:深度强化学习方法。am03g@nctu.edu.twDepartment台湾交通大学应用数学系(Applied Mathematics)编辑:ABC XYZAbstractAn自动程序可以从金融市场中产生持续的利润,对每个市场从业者来说都是幸运的。深度强化学习的最新进展为此类交易代理的端到端培训提供了框架。在本文中,我们提出了一种适用于金融交易任务的马尔可夫决策过程(MDP)模型,并使用最先进的深度递归Q网络(DRQN)算法进行求解。我们对现有的学习算法提出了一些修改,使其更适合金融交易环境,即1。与现代深度强化学习算法中使用的重播内存(通常为数百万)相比,我们使用了非常小的重播内存(只有几百个大小)2、我们开发了一种动作增强技术,通过向代理提供所有动作的额外反馈信号来缓解随机探索的需要。这使我们能够在整个学习过程中使用贪婪策略,与更常用的策略相比,它显示出强大的经验性能-贪婪的探索。然而,在一些市场假设下,这种技术是特定于金融交易的。3、我们抽取一个较长的序列进行递归神经网络训练。这种机制的一个副产品是,我们现在可以为每个T步骤培训代理。这大大减少了调整时间,因为整体计算减少了一倍T。我们将以上所有内容结合到一个完整的在线学习算法中,并在即期外汇市场上验证了我们的方法。关键词:深度强化学习、深度回归Q网络、金融交易、外汇1。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 06:26:56
引言在本文中,我们研究了将深度强化学习算法应用于金融交易领域的有效性。与游戏领域或机器人技术不同的金融交易带来了一些独特的挑战。我们指出了其中一些我们认为是成功应用的关键。1.1金融交易任务描述金融交易任务的一种方式如下:“代理人与市场互动,试图实现某种内在目标。”黄建一表示,特工不需要是人;算法交易现在占据了现代金融市场中大量的交易活动。常见的互动包括观察新的财务数据或向交易所提交新订单等。例如,对冲基金经理的内在目标可能是风险调整措施,例如,在特定的波动阈值下,试图达到15%的年回报目标。主动交易者的目标可能只是追求最高利润,而没有适当考虑所产生的风险。一个极端的例子是,一个人只为“赌博感觉”而交易,根本不关心金融市场。尽管上述描述相当笼统,但这类任务有一些特点:1。代理人以离散的时间步与金融市场进行互动,即使时间步可能非常接近,例如,在高频交易中,交易决策可以在几毫秒内做出。代理人可以在市场上采取一系列法律行动,从天真地提交具有固定头寸规模的市场订单到提交完全指定的限额订单。3、金融市场在每一个时间段都会产生可供代理人使用的新信息,使代理人能够做出交易决策。然而,代理没有关于数据是如何生成的完整线索。4.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 06:26:58
如果金融市场足够强大,代理人有可能改变金融市场,尽管不能完全控制金融市场。因此,认为市场对代理人来说完全是外生的并不完全现实。鉴于这些特点,我们希望有一个统一的框架来培训此类代理人。这是本文背后的部分动机。1.2动机有许多深层强化学习的成功案例,一个自然的问题是:“一个艺术经纪人能成功地学习交易吗?”成功取决于代理人实现其内在目标的程度。强化学习最基本的假设之一是,可以通过最大化长期未来回报来表达代理的目标。奖励是一个单一的标量反馈信号,反映了代理人在某种状态下行为的“善”。这被称为反向假设。定义1(奖励假设)所有目标都可以通过预期未来奖励的最大化来描述。上述四个特征类似于强化学习。机器学习的Abranch,研究顺序决策的科学。由于解决了以前不可行的具有挑战性的控制任务,强化学习最近受到了相当多的关注。因此,这篇论文背后的动机是,看看最近提出的技术是否会转移到金融交易任务中,看看我们可以使用这些技术走多远。金融交易作为游戏1.3挑战我们确定了将强化学习应用于金融交易的四大挑战:1。缺乏基线。在将深度强化学习应用于视频游戏和机器人技术方面发表了大量工作。关于如何将相同算法应用于金融交易Li(2017)的工作相对较少。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 06:27:01
早期实验没有明确的基线,也没有合适的MDP模型、网络架构或一组超参数。2、数据质量和可用性。很难获得高分辨率的财务数据。通常只有开盘价、高价、低价和收盘价(OHLC)数据可以自由访问,这可能不足以产生成功的交易策略。金融时间序列本身是非平稳的,对基于梯度的标准学习算法提出了挑战。3、金融市场的部分可观测性。无论我们的输入状态多么“完整”,金融市场中总会存在一定程度的不可观察性。我们无法观察到每个市场参与者对当前市场状况的共识。4、勘探开发困境。尽管现代强化学习算法非常复杂,但通常使用的是幼稚的探索策略。例如,-基于价值的方法中的贪婪探索和基于政策的方法中的Boltzmann探索Sutton和Barto(1998)。这在金融交易环境中是不可行的,因为随机探索将不可避免地产生巨大的交易成本并损害绩效。1.4贡献本论文的贡献有三个方面:1。我们为一般基于信号的金融交易任务提出了一个马尔可夫决策过程(MDP)模型,该模型可通过最先进的深度强化学习算法解决,且仅可公开访问数据。MDP模型易于扩展,具有更复杂的输入功能和更复杂的动作空间,对模型架构和学习算法的修改最少。2、我们修改了现有的深度递归Q网络算法,使其更适合金融交易任务。这涉及到使用非常小的重放内存,并对更长的训练序列进行采样。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-10 06:27:04
我们对上述两个发现感到惊讶,因为在深度强化学习中,通常会使用大量的重复记忆,而采样序列的长度通常只有几个时间步长。我们还发现了DRQN算法的可行超参数,该算法能够通过随机搜索解决金融交易MDP。我们还开发了一种novelaction增强技术,以缓解金融交易环境中随机探索的需要。黄,简一3。我们在12种不同的货币对上实现了正回报,包括交易成本下的主要货币对和交叉货币对。据作者所知,这是首次使用纯深层强化学习技术成功应用于真实金融数据。本文给出的数值结果可以作为未来研究的基准。本文的结构如下:在第二部分中,我们详细描述了所提出的方法,包括数据准备、特征提取、模型结构和学习算法。在第3节中,我们将所有提出的技术结合到一个单独的在线学习算法中。在第4节中,我们在外汇现货市场上评估了我们的算法,并给出了数值结果。方法在本节中,我们对所提出的MDP模型、模型架构以及学习算法进行了详细描述。2.1数据准备和特征提取我们从TrueFX下载逐笔外汇数据。2012年1月至2017年12月。我们选择了12种货币对,即澳元日元、澳元新西兰元、澳元美元、加元日元、瑞士法郎日元、欧元英镑、欧元日元、欧元美元、英镑日元、英镑美元、新西兰元和美元加元。对于多样性,包括主对和交叉对。然后,我们将数据重新采样为15分钟间隔,包括开盘价、高价、低价、收盘价和交易量。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群