捕捉金融市场以应用深度强化学习

nandehutu2022

1228

收藏 2022-06-24

英文标题：
《Capturing Financial markets to apply Deep Reinforcement Learning》
---
作者：
Souradeep Chakraborty
---
最新提交年份：
2019
---
英文摘要：
In this paper we explore the usage of deep reinforcement learning algorithms to automatically generate consistently profitable, robust, uncorrelated trading signals in any general financial market. In order to do this, we present a novel Markov decision process (MDP) model to capture the financial trading markets. We review and propose various modifications to existing approaches and explore different techniques like the usage of technical indicators, to succinctly capture the market dynamics to model the markets. We then go on to use deep reinforcement learning to enable the agent (the algorithm) to learn how to take profitable trades in any market on its own, while suggesting various methodology changes and leveraging the unique representation of the FMDP (financial MDP) to tackle the primary challenges faced in similar works. Through our experimentation results, we go on to show that our model could be easily extended to two very different financial markets and generates a positively robust performance in all conducted experiments.
---
中文摘要：
在本文中，我们探讨了如何使用深度强化学习算法在任何一般金融市场中自动生成持续盈利、稳健、不相关的交易信号。为了做到这一点，我们提出了一种新的马尔可夫决策过程（MDP）模型来捕捉金融交易市场。我们审查并提出对现有方法的各种修改，并探索不同的技术，如技术指标的使用，以简洁地捕捉市场动态，对市场进行建模。然后，我们继续使用深度强化学习，使代理（算法）能够学习如何在任何市场上独自进行有利可图的交易，同时提出各种方法变更，并利用FMDP（财务MDP）的独特表示来应对类似工作中面临的主要挑战。通过我们的实验结果，我们进一步表明，我们的模型可以很容易地扩展到两个非常不同的金融市场，并在所有进行的实验中产生了积极稳健的性能。
---
分类信息：

一级分类：Quantitative Finance 数量金融学
二级分类：Computational Finance 计算金融学
分类描述：Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法，包括蒙特卡罗，偏微分方程，格子和其他数值方法，并应用于金融建模
--
一级分类：Computer Science 计算机科学
二级分类：Machine Learning 机器学习
分类描述：Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文（有监督的，无监督的，强化学习，强盗问题，等等），包括健壮性，解释性，公平性和方法论。对于机器学习方法的应用，CS.LG也是一个合适的主要类别。
--

---
PDF下载：
-->

Capturing_Financial_markets_to_apply_Deep_Reinforcement_Learning.pdf
大小:(1.29 MB)

马上下载

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

能者818

2022-6-24 08:16:40

捕捉金融市场以应用深度强化LearningSouradeep Chakraborty*BITS Pilani大学，K.K.Birla GoaCampusf20170170@goa.bits-皮拉尼。ac.in*在Subhamoy Maitra博士的领导下，在ISI CalcuttaJEL的应用统计部门工作：C02、C32、C63、C45Abstracts在本文中，我们探讨了如何使用深度强化学习算法在任何一般金融市场中自动生成一致、可靠、不相关的交易信号。为了做到这一点，我们提出了一种新的马尔可夫决策过程（MDP）模型来捕捉金融交易市场。我们审查并提出对现有方法的各种修改，并探索不同的技术，如技术指标的使用，以简洁地捕捉市场动态，对市场进行建模。然后，我们继续使用深度强化学习，使代理（算法）能够学习如何在任何市场上自行进行可盈利交易，同时提出各种方法变更，并利用FMDP（财务MDP）的独特表示来应对类似工作中面临的主要挑战。通过我们的实验结果，我们进一步表明，我们的模型可以很容易地扩展到两个非常不同的金融市场，并在所有进行的实验中产生积极的稳健性能。关键词：深度强化学习、在线学习、计算金融、Markovdecision过程、金融市场建模、算法交易导入1.1动机自20世纪90年代初以来，人们致力于使用数据和计算自动生成交易，这些数据和计算始终优于基准，并以最小的风险产生持续的正回报。目标开始从“学习如何在金融市场中获胜”转变为“创建一个能够自己学习如何在金融市场中获胜的算法”。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-6-24 08:16:43

因此，在这个算法/自动化交易的时代，存在着两大挑战（除其他许多挑战外）——存在干净、可靠（或至少可以使用简单的统计转换轻松修改）的数据，以及一种有效的计算算法，可以生成一致（理想）的利润或可能更有利的交易。随着时间的推移和对干净、易用、免费数据集需求的理解，数据集逐渐演变为可信、完整的数据集。因此，最安全的数据集之一（可靠性和完整性方面）是外汇数据，即时间序列价格数据（每种货币兑换，如美元-印度卢比，在特定日期的成本）。需要注意的一件有趣的事情是，这些数据是动态的，不像表示静态特征的图像，henceone可以理解对在线算法的需要，该算法可以动态工作，并通过每个额外的测试用例来优化自身。机器学习、深度学习和强化学习的出现，使我们能够提出各种算法，能够完全自动地解决图像识别等复杂任务。这促使研究人员和金融机构尝试提出一个用于交易的机器/深度学习框架。因此，花费了数年的研究来合理地建模金融交易任务，但大部分都失败了。（Lopez de Prado 2018）讨论了机器学习对冲基金过去失败的主要原因。21世纪初，深度学习取得了重大进展，许多使用深度学习和强化学习核心原则的混合算法被结合起来，最终提出了一种有效的算法，可以为交易建模——深度强化学习。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-6-24 08:16:46

（Arulkumaranet al.，2017）是对DRL的简要调查。大多数强化学习算法的关键应用领域是游戏——在游戏中，算法反复尝试在给定一组决策的情况下选择最佳决策。这个决策过程可以用马尔可夫决策过程建模。这里提到的MDPsia应用的简要概述（White 1993）。然后使用Q-learning解决该MDP，其中学习在环境的每个状态下要采取的最佳行动。DRL应用于此学习过程，为MDP中的每个状态-动作对选择最佳动作。DRL对于Q学习尤其有利，因为数据量巨大或数据严重依赖于时间，所以在诸如随机探索之类的价值迭代过程不可行的场景中，这两种数据都是金融数据集的特征，因此使其成为使用MDP建模的优秀候选者。按照类似的思路，可以将金融交易问题建模为MDP。虽然有很多关于深度强化学习作为MDP解决方案的研究，但作为金融交易应用的深度强化学习是一个相对较新的研究领域，因此，对该主题的研究有限。在这项工作中，我们提出了一种将金融市场建模为MDP的新方法，并提出了一种完全在线的深度强化学习算法来生成评级。1.2财务MDP（FMDP）简介本节假设对强化学习和马尔可夫决策过程有初步了解。有关这些主题的简要回顾，请参阅（Kaelbling、Littman和Moore 1996）和（White 1993）。金融数据环境可以被认为高度依赖于时间，其程度可以被认为是时间的函数。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-6-24 08:16:49

因此，此属性可用于开发在线交易算法。巧合的是，马尔可夫过程被定义为捕获整个过去的数据，并在代理的当前状态下定义问题的整个历史。当强化学习问题满足马尔可夫性质时，转移函数（或从一种状态到另一种状态的概率）满足上述条件。从形式上讲，这可以用数学定义如下：P(s+= s′,r+= r|s,a,r…,r,s,a)= P(s+= s′,r+= r|s,a)（1）因此，我们可以理解金融环境如何很好地融入MDP。例如，一家公司的年度报告刚刚发布，该公司去年亏损严重。无论该公司的历史或商誉如何，这条消息都会对其股价产生负面影响。这种对新事件（以及时间）的高度依赖有助于我们理解在金融环境中，州与州之间的关系在很大程度上取决于当前的州而不是过去的州。1.3主要挑战在本节中，我们介绍了在尝试将深度强化学习应用于金融市场时面临的主要挑战。为这样一项复杂而普遍的任务收集数据是试图为金融市场建模的研究人员面临的主要挑战。这样的任务需要高质量的数据，而且这些数据需要非常详尽，以便agent使用传统的深度强化学习算法进行学习。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-6-24 08:16:52

此外，我们还面临“维度诅咒”（Verleysenand Francois 2005），因为所需数据的详尽性，这使得actionexploration对于agent来说是一项具有挑战性且计算成本高昂的任务。1.4预期贡献这项工作旨在探索使用简单的数学修正（称为技术指标）来推断易于获取的数据点（而不是高质量的OHCLV或多仪器数据）。我们期望这些指标能够有效地捕捉市场动态以及特定工具的变动。这使我们能够为马尔可夫决策模型实现更简单的状态空间市场表示。此外，另一个目标是最终设计一个深度强化学习代理，该代理可以学习任何一般金融市场中的最佳稳健、可预测和不相关策略。2方法学这项工作旨在建立在现有模型的基础上，将深度强化学习应用于金融市场，提供合理的修改。我们表明，我们的模型在计算上对训练的要求较低（通过实验和理论分析），因此暴露的耐受性较低。为了实现这一改进，我们使用一种新的方法来描述财务马尔可夫决策过程（FMDP），然后使用深度强化学习来找到其最优策略。该FMDP的建模方式可以解决数据可用性和actionexploration问题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

何人来此

2022-6-24 08:16:55

然后，我们继续通过实验证明我们模型的改进（第3节），并在第3.3节中展示结果，利用财务数学比率作为评估指标。在本节中，我们展示了我们的方法，比较了现有文献，同时证明了提议的变化。2.1描述财务MDP（FMDP）回想一下，每个有代理人的MDP都有三个基本组成部分——状态空间（代理人可以处于的不同状态）、行动空间（代理人可以在不同状态下采取的不同行动）和奖励空间（代理人在每个状态下获得的对应于每个行动的奖励）。为了对金融交易中的MDP进行建模，我们选择代理作为交易算法，目的是在环境中不断产生一致的利润，这是与正在交易的商品相对应的金融市场（例如，股票市场、货币对外汇市场、原油商品市场等）。这种广义金融马尔可夫决策过程是唯一的；正如所有之前的相关工作，如（Huang 2018）和（Xiong et al.2018），分别有针对外汇市场和股票市场的模型。这一概括是通过定义一个简单的状态空间来实现的，该状态空间能够捕获任务定义，而不包括特定市场的信息。2.1.1国家空间我们的FMDP定义为代理人交易任何一种特定证券（如原油或欧元/美元货币对等），并可以买卖相应证券的合同（从1到最大数量的合同）。FMDP旨在执行不同的市场，因此，我们的状态空间探索技术指标的使用，这是对工具价格数据的数学和统计修改。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-6-24 08:16:58

使用技术指标可以让我们简洁地捕捉工具与基础市场的相关性，而无需使用特定的市场特征。这种方法的另一个优点是，这些技术指标要么可以免费获得，要么可以通过简单使用证券的时间序列价格数据获得。我们用来捕捉待交易证券行为的技术指标有：MACD（移动平均收敛-背离（Anghel 2015））、RSI（相对强度指数（Bhargavi、Gumparthi和Anith 2017））、Williams%R（LarryWilliams、Dahlquist，2011发明的动量指标），权重条方向（一个参数，告诉我们通过分配权重形成的烛台（William and Jafari 2011）的方向和重要性）和前一天的高低范围。之所以选择这些指标，是因为它们简单且受欢迎。相比之下，该领域的其他作品通常使用由OHLCV数据组成的市场特征，其中数据非常详尽，或者收盘价数据直接用作相关证券收盘价的特征（如（Huang 2018），（Xiong et al.2018），（Liang 2018）等）。我们对状态空间的表示不仅使其易于移植到其他市场，而且还允许在（Lorenzoni etal）的支持下建立市场间关系，如动量、趋势逆转等。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-6-24 08:17:01

2007年），而不必依赖高质量的数据（如OHCLV，除了股票市场之外，它不是那么容易获得），也不必使状态空间过于复杂。因此，整个状态空间主要分为两个子部分：位置状态–这是形状的3D向量[L,S,PnL] 哪里L 表示当前购买的合同数量（我们持有的长期合同数量）S 表示当前出售的合同数量（我们持有的短期合同数量），以及PnL表示基于当前头寸的相应利润或损失。在第2.1.2节讨论动作空间时，我们提供了有关位置状态的进一步详细信息。市场特征–我们利用上述5项技术指标以及时间戳（编码以捕获日期时间）来表示市场特征。这些特性经过精心设计，使得模型可以提取特定于安全性的有意义信息，并使用MinMaxScaler将其缩小到0.1到1之间。（为了规范化（Patro和Sahu，2015年）所探索的数据），我们还将这些指标组织成按时间步长分组的时间序列。凭直觉，我们可以理解这种对市场特征的定义是如何有意义的。我们的代理人被定义为模仿真实世界的交易者，而真实世界的交易者很少使用vanillaprice行动数据，并且经常与技术指标合作，以更密切、更准确地研究潜在的相关性。支持金融交易中技术分析的有效性和力量的研究可以在（Lorenzoni et al。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-6-24 08:17:05

2007）和（Hegde 2017）。我们进一步认识到，对市场特征的这种定义也使状态空间变得不那么复杂（由于维度较低），从而减少了复杂性和培训时间。2.1.2动作空间动作空间被实现为一个单独的值，可以是0、1或2，分别代表持有、买入和卖出信号，每个信号都将简要说明。如果在任何状态下，代理决定执行某个动作，那么相应地，只有状态空间的位置状态才会受到影响。这一点得到了零市场影响假设的支持，该假设本质上表明，代理人的行为永远不会对市场特征产生重大影响。这一重要事实被用来证明，任何行动都不能与州际市场特征的变化直接相关，从而使问题变得不那么复杂。如果生成的动作是保持信号的动作，则前一个时间戳的位置将被转移，并且不会对位置空间进行任何更改。此外，如果动作与买入信号相对应，则向头寸空间添加一个多头合约，前提是头寸空间中的多头合约数量小于我们可以购买的最大合约数量。动作空间中的sell信号以同样的方式工作。我们还以这样一种方式定义了职位空间，即我们可以只签订长期合同，也可以只签订短期合同。这意味着L （操作=1），或S （对于操作=2），或在给定时间戳处两者均为零（对于操作=0）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-6-24 08:17:08

这种对位置空间的定义也有助于我们以后探索Q-Learning的政策，因为我们可以计算购买或出售证券决策的长期回报。为了更好地模拟真实世界的交易，我们还将交易成本纳入了PnL中。位置空间还包含由于所采取的操作而产生的即时PnL的详细信息。这是通过计算两个时间段之间的价格差异，并减去适用于长/短合同的适当交易成本（如其他两个值所述）来获得的(L 和S) 位置空间的（在下一节中详细描述）。2.1.3奖励和政策由于我们的任务是有效地最大化我们的回报，因此以某种方式将PnLitself作为对应于每个行动的代理的奖励是有意义的。通常，在MDP中，每个状态下每个动作的奖励都是预先确定的，并且agent会随着时间的推移学习选择该动作，从而使奖励最大化。这可以通过最大化代理在每个状态下由于每个动作而获得的即时奖励（如果可以为每个动作计算奖励，那么这是有意义的），或者通过最大化最终的长期奖励来实现，该长期奖励可以通过在执行当前动作后遵循最佳动作集来获得（Q学习）。在我们的FMDP中，我们利用即时和长期回报。我们已经讨论了如何持续存储由于位置状态中的某个操作而产生的即时奖励（或即时PnL）。为了实现长期PnL，我们计算PnL并不断添加，直到观察到位置变化。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-6-24 08:17:11

我们使用以下示例解释此实现：初始状态（时间戳t）=[0,0,0]->无长合约、无短合约、无PnL。模型=1->指示购买信号生成的操作。价差（t+t价格-t价格）=+55交易成本=+5即时奖励=+55–（+5）=+50然后，最终状态（时间戳t+t）=[1,0，+50]，模型生成的动作=0->指示保持信号。价差（t+2*t时的价格-t+t时的价格）=+30交易成本=0即时奖励=+30-0=+30然后，最终状态（时间戳t+2*t）=[1,0，+30]，模型生成的操作=2->指示卖出信号。价差（t+3*t时的价格-t+2*t时的价格）=-10交易成本=+5即时回报=-10-（+5）=+5然后，最终状态（时间戳t+3*t）=[0,1，+5]，以及由于时间戳t=50+30=80时的长期决策而产生的长期PnL。这种奖励函数的定义允许代理轻松找到最佳策略。该策略本质上是每个状态下每个动作的概率分布，因此定义了代理的行为。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-6-24 08:17:14

为了有效地学习最佳策略（即实现回报最大化的策略），代理利用Q(s,a), 作用值函数，根据Bellman方程定义如下：Q(s,a)= E+[r(s,a,s+) + γE+(+)Q(s+,a+)]] （2）通过Q学习，我们基本上可以学习最优策略（表示为Q*(s,a)) 通过选择贪婪的行动来学习环境，而不是最大化行动价值函数的期望值，而是选择最大化行动价值函数本身的行动。因此Q*(s,a)= E+[r(s,a,s+) + γ*max+(Q(s+,a+))]] （3）我们看到，根据这一定义，最优政策如何具有直接成分（因此收到r(s,a,s+)) 和长期成分（按系数贴现γ).因此，我们发现我们对FMDP的定义非常适合Q-learning方法。2.2最优策略-深度强化学习通常，使用一个简单的深度Q网络，使用深度神经网络对值函数中的状态进行编码来进行函数近似，以找到最优策略。当我们进一步使用体验重播功能来存储转换和更新模型网络时，就会完成强化学习。然而，这种方法在财务强化学习问题上做得不好（Verleysen和Francois 2005），因为这些MDP中的行动空间很大。为了应对这一挑战，（Xiong et al.2018）的作者使用了一个演员-评论家网络，该网络利用两个深层神经网络——一个将动作映射到状态，另一个获取动作的价值。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-6-24 08:17:16

然而，这种方法的计算成本很高，我们看到（Huang 2018）的作者使用行动增强来定义一种特殊的损失函数，如下所述，对于政策，由于行动空间的简单性和奖励的定义方式，可以使用简单的网络来解决。L(θ)= E()~|r+ γQ-s,arg参数maxQ(s,a)-Q(s,a)| (4)θ ← θ - αθL(θ), （5）在哪里Qθ-表示目标网络。我们使用与上述相同的行动增加损失函数，同时认识到仍然需要纳入更简单的政策探索技术，包括中期和长期奖励。因此，我们对FMDP的新定义允许我们建立一个网络模型，该网络基于第2.2节中定义的即时回报和长期回报来确定最优政策。这两种奖励都会被代理记住（直到耗尽内存，此时会重新初始化），然后在代理的体验重播模块中使用这一累积奖励（这两个日志返回的相加，因为RL应用程序由于其可加性更好地处理奖励的日志定义），其中，它构建了一个基于深度强化学习的网络，以生成状态-行动-价值函数，用于根据之前状态和奖励的当前状态和记忆选择最佳行动。2.3网络架构我们使用深度强化学习网络，该网络将状态空间作为输入，以生成代理使用的最优策略。在给定状态空间的情况下，我们使用它来选择代理要执行的最佳操作。回想一下，我们对状态空间的定义有两个关键部分（如第2.2.1节所述）——头寸状态和市场特征。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-6-24 08:17:20

因此，我们在模型中利用了这种模块化，将位置状态直接提供给一个完全连接的层，同时我们使用两个LSTM的组合来有效地反映市场特征。然后将它们合并在一起，然后再结合两个完全连接的层，最终生成该状态的值函数预测。除最后完全连接的层外，我们对所有层使用ReLU激活（Agarap 2018），其中我们使用softmax激活（Bridle，1990）。Adam优化器用于模型（Kingma和Ba 2014）。模型的完整框图描述如图1所示：图1：网络框图描述，通过生成给定状态空间的值函数，预测在每个状态下采取的最佳行动。很明显，网络一直保持相对简单，以便于更快的培训。2.4培训我们利用（Huang 2018）最初提出的培训修改，对模型进行培训，以获得最佳价值函数。也就是说，我们利用较小的重播内存（由于高度依赖于金融市场中最近的事件），并且我们每T个时间步对模型进行一次训练（因为这有利于真实交易，因为训练可以在市场时间之后进行，程序可以低延迟运行）。此外，我们没有从agent内存中随机取样，而是在体验重播功能中利用agent的整个内存。这有助于我们更好地捕获长期依赖关系，这些依赖关系可能由于较小的Replay内存而丢失。因此，我们在重播内存和采样序列之间保持一种折衷。2.4.1学习算法我们使用下述算法学习动作值函数。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-6-24 08:17:23

我们维护一个完整的在线算法，因为这在交易应用程序中更为实用，在交易应用程序中，从一开始就拥有整个数据并执行列车测试验证拆分是没有意义的，相反，数据是以顺序的方式来的。1、初始化T（正整数，时间步长），循环Q网络(θ), 目标网络(θ), 数据集D，环境E，学习率τ2。从数据集D3模拟环境E。观察env E4的初始状态s。对于t=1，t do：5。如果rand（0,1）<ε：6。如果epsilon>epsilon\\u min：7。epsilon*=epsilon\\u decay8。结束if9。动作=随机动作10。其他：11。根据当前型号12选择操作。结束if13。执行行动并获得奖励和下一个状态14。将转换存储在内存缓冲区15中。如果代理的内存已满：16。运行体验重播17。将内存内容存储在缓冲区18中。清理内存19。使用方程式（4）和（5）20拟合Q-net模型。结束if21。使现代化θ<- (1 – τ) θ+ τ θ22、结束由于随机行为而使用初始奖励，模型学习采取更好的行动来最大化这些奖励（电子贪婪）。这将我们带到了另一个重要的方面——在用于拟合模型的方程式（4）中，我们使用了我们对奖励的特殊定义（包括即时和长期奖励），而不是使用其他强化学习任务中使用的普通奖励定义。2.5拟议架构的分析在本节中，我们将介绍关键的方法创新，并尽可能提供理论依据，然后再转到第3节查看实验结果，以证明我们架构的有效性。3实验和性能评估3.1数据预处理由于我们的FMDP-DRL模型是通用的，我们可以在我们的模型上应用各种数据集。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-6-24 08:17:26

在我们的实验中，我们将我们的模型应用于原油和外汇市场的9种不同货币对（共测试了10种工具）。我们详细讨论了从CrudeOil数据集获得的结果，同时以表格形式列出了货币对的结果详细信息。为了准备每个数据集，我们需要的唯一原始数据是时间戳以及该时间戳的价格。该价格数据可从在线来源轻松获得（如TrueFX.com for currencydata）。一旦我们有了价格和时间戳，我们就可以使用数学表达式创建技术指标。例如，我们使用MACD作为技术指标之一。MACD的数学表达式如下：MACD=26day EMA-12day EMA （6）其中，EMA表示价格的指数移动平均值。有关所用技术指标的详细信息，请参见第2.1.1节。我们还使用Sklearn的MinMaxScaler模块将前面讨论的所有市场功能缩小到0.1到1的范围，以确保数据规范化。由于我们使用的是一种完全在线的学习算法，我们不需要担心atrain/测试/验证分离。3.2实验设置在我们的实验中，我们设定了5份合同的最大持有规模。这意味着，如果连续买入信号生成时间超过5天，它们将被视为持有信号。销售信号相同。此外，我们根据购买/出售的合同数量使用固定佣金。该佣金是一个超参数，对模型的性能有影响。直觉上，我们可以通过以下联系来理解这一点：佣金越低，代理人越倾向于积极交易，而不是在佣金高的情况下倾向于较少的交易。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-6-24 08:17:29

因此，我们选择了每份合同2美元的佣金（考虑到全球的经纪费用，这是一个合理的价值）。在我们的实验中，我们还发现，只要佣金值保持在一定范围内（每份合同低于5美元），交易数量就在现实范围内。对于代理商，我们选择了折扣系数(γ) 0.8，学习率为0.001。此外，如2.4.1所述，我们选择了ε值1.0，衰变值0.995，最小值0.01.3.3进行回测。结果我们选择了2018年11月至2019年2月的时间段对我们的模型进行回测。在了解实验结果之前，我们将展示在回溯测试期间如何解释代理的操作。在图2中，我们展示了代理的典型行为。图2：我们代理的典型行为（PnL以x10表示表单）如我们所见，当我们的职位空间中已经有一个长期合同时，生成了购买操作。我们看到，在购买额外的长期合同后，我们的头寸空间现在反映了新的PnL（0.41 x10^3）和2份长期合同，而不是一份。此时，我们看到生成了一个Sell操作。我们将其称为关键卖出，因为这一行动导致了之前购买行动导致的长期PNL的计算。我们分析了我们的模型在这段时间内对原油价格得出的结果，如图3所示。图3：原油价格与代理PnL的详细曲线图。见图3，代理表现强劲，并提供可观的回报。在给出数值结果之前，我们分析图3，重点是所采取的措施。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-6-24 08:17:32

我们看到代理能够有效地利用信息并进行合理交易——学习如何在正确的时间买入/卖出并持有，我们还看到所采取的大多数行动不是买入或卖出行动，而是持有行动，这在现实生活场景中是有意义的，并且由于交易成本较低和回报的复合效应（Shiryaev、Xu和Zhou，2008）中讨论的买入和持有）而被证明效果更好。由于我们的代理人没有交易的上限/固定金额（而是固定的最大合同数量），绝对回报值不是评估我们模型绩效的好指标，因为我们交易的是各种不同的工具，价格也不同。因此，更好的评估指标是年化夏普比率（Lo 2002），它将投资回报和风险结合在一起。除了夏普比率，我们还使用了其他两个指标来评估性能。这是获胜率和最大降幅（MagdonIsmail和Atiya2004），均以%表示。赢的比率是产生正PnL的交易数量与交易总数的比率，而最大提款（MDD）代表了下行风险，本质上代表了代理人承受的最大损失。表1总结了模型在各种数据集中的性能。工具名称Sharpe Win Ratiomdd原油4.09 67.88%~7.33%欧元2.88 60.41%~9.81%英镑2.57 61.29%~10.63%澳元1.98 62.03%~8.16%英镑3.55 59.62%~9.47%欧元2.23 61.31%~5.33%澳元3.72 65.66%~11.66%加元1.90 60.77%~9.00%新西兰元3.57 63.82%~6.39%美元2.01 59.23%~8.83%表1：结果汇总在这项工作中，我们还复制了性能最好的结果发表在（Huang 2018）和（Xiongetal。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-6-24 08:17:35

2018）分别见下表2和表3。工具名称Sharpe Win RatioMDDAUDNZD 5.7 63.20%-1.21%瑞士法郎3.1 61.50%-7.71%英镑日元2.9 60.80%-7.73%（Huang 2018）的顶级结果请注意，下表的格式有所不同（根据（Xiong et al.2018））。算法/策略SharpeInitialCapitalAnnualizedReturnDDPG（作者原著）1.79 10000 25.87%最小方差（作者使用的基线）1.45 10000 15.93%DJIA（作者使用的基线）1.27 10000 11.70%表3：结果（Xiong et al.2018）。我们观察到，由于Sharpe比率较高，我们的代理在所有情况下都非常稳健。此外，我们看到，我们的代理人的获胜率很高，这意味着我们的代理人也能够准确地识别工具的方向运动，从而转化为更稳健的交易策略。此外，我们观察到MDD在一个合适的范围内，因此我们可以说，代理人所学的策略没有太大的下行风险。4结论在这项工作中，我们建立了一种深度强化学习算法，通过将任务建模为唯一的马尔可夫决策过程，有效地学习财务环境。我们对这一领域的现有工作提出了一些修改，并通过将其与直观的现实金融场景联系起来，通过理论论证予以支持，并使用实验结果加以证实。主要方法的差异在于FMDP的建模方式。通过对特定工具的价格数据进行简单的数学运算，定义独立于特定市场数据，但仍能捕捉整体市场动态的市场特征空间（Lorenzoni等人，2007），我们期望有效降低状态空间的复杂性，同时仍能保持信息的稳健性。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-6-24 08:17:38

（在第2.2.1节中讨论）此外，我们引入了一个简单的行动空间，并使用我们新颖的奖励定义（基于决策的即时和长期奖励合并），以更好地适应Q-learningmethodology来解决最优策略（在第2.2.3节中讨论）。然后，我们提出了一个深度强化学习模型，以有效地找到最优策略，从而使代理能够进行交易，使性能最大化。最后，由于我们离散地定义了状态空间的两部分，即市场特征（本质上是一个时间序列数据框架）和位置空间（更像是一个数据点的抽象集合）。我们通过在状态空间的时间序列部分使用递归神经网络（两个LSTM层）来利用状态空间中的这种模块性，（因为我们知道RNN可以很好地处理时间序列数据（如（Zhang et al.2019）和（Balkin 1997）的工作所支持），同时在位置空间上使用密集网络。如果状态空间中的这种模块化没有得到维护，我们将无法应用不同的网络来学习状态空间特性，因此也无法捕获环境。下一节总结了这项工作的主要成就。此外，在第4.2节中，我们展望了该领域研究的未来前景。4.1成就我们提出了一种将金融交易任务建模为MDP（FMDP）的新方法。我们利用流行的技术指标来捕捉仪器特定的市场相关性。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-6-24 08:17:41

这使得我们的FMDP可以扩展到任何金融交易任务，并在不影响性能的情况下降低状态空间的复杂性。我们引入了一种建模奖励函数的技术，使代理能够解释其行为的即时和长期影响，并提出了对现有深度强化学习算法的修改，以更好地适应FMDP，尤其是金融交易环境。我们为在两个不同市场（大宗商品（原油）和外汇（货币对）交易的工具提供了实验结果（结合实际交易约束，如每笔交易的佣金），并取得的结果表明，该机构学习到的策略是积极的、不相关的，足够可靠，可以实时部署。4.2未来工作扩展到其他交易场景，如使用组合而不是由多个工具（而不是单一工具）组成，根据投资可用资本（而不是合同数量）下达限额指令，高频交易等。应用和探索更复杂的强化学习技术，如（Wang et al.2018）和（Bellemare、Dabney和Munos 2017）中使用的强化学习技术，以及最新的Rainbow RL技术，该技术融合了香草RL制剂的许多不同改进。探索其他MDP模型以简洁地捕捉市场。虽然我们建议使用技术指标代替高质量数据，但可能还有其他方法可以轻松捕捉金融市场特征（如股票的基础数据）。5确认和利益声明5.1利益声明提交人报告无利益冲突。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-6-24 08:17:44

作者独自负责论文的内容和写作。5.2确认如果没有加尔各答三军情报局应用统计股Subhamoy Maitra博士的持续支持和指导，这项工作是不可能完成的。我还感谢BITS皮拉尼果阿校区的几位教授和教授，他们让我接触到了研究、计算和定量金融的世界。最后，我要感谢我的家人，尤其是我的父母，他们的爱和指导塑造了我今天的样子。6参考Agarap，Abien Fred。2018年，《使用校正线性单元（ReLU）的深度学习》，第1期：2-8。http://arxiv.org/abs/1803.08375.Anghel，Gabriel Dan I.2015年。“股票市场效率和MACD。来自世界各国的证据。”《经济学与金融百科全书》32（15）：1414–31。https://doi.org/10.1016/s2212-5671（15） 01518-x.Arulkumaran、Kai、Marc Peter Deisenroth、Miles Brundage和Anil Anthony Bharath。2017年，《深度强化学习ABrief调查》，1-16。Balkin，Sandy D.1997年。“使用递归神经网络进行时间序列预测”，第97:1–19号。Bellemare、Marc G、Will Dabney和Rémi Munos。2017年，“强化学习的分布视角”http://arxiv.org/abs/1707.06887.BhargaviR.、Srinivas Gumparthi和R.Anith。2017年，“构建最优投资组合中制定有效交易策略的相对实力指数。”国际应用工程研究杂志12（19）：8926–36。Hegde，Madhuri。2017年，《利用技术分析进行投资决策：印度股市精选股票研究》IOSR商业与管理杂志（IOSR-JBM）19（9）：24–33。https://doi.org/10.9790/487X-1909062433.Huang，简毅。2018年，“金融交易作为游戏”:,” 1–15.凯尔布林、莱斯利·帕克、迈克尔·利特曼和安德鲁·摩尔。1996

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-6-24 08:17:47

“强化学习: 调查”4:237–85。Kingma、Diederik P.和Jimmy Ba。2014年，《Adam：随机优化方法》，1-15。http://arxiv.org/abs/1412.6980.Liang，志鹏。2018年，《投资组合管理中的对抗式深度强化学习》Lo，Andrew W.2002。“夏普比率的统计数据。”《金融分析师杂志》58（4）：36–52。https://doi.org/10.2469/faj.v58.n4.2453.Lopez德普拉多，马科斯。2018年，“大多数机器学习基金失败的10个原因。”Ssrn。https://doi.org/10.2139/ssrn.3104816.Lorenzoni朱利亚诺、阿德里安·皮辛格、罗德里戈·阿塞里诺和克里斯蒂亚诺·费尔南德斯。2007年，《关于技术分析的统计验证》巴西财政评论5（1）：3–28。马格登·伊斯梅尔、马利克和阿米尔·阿提亚。最大提款风险度量分析风险杂志17（10）：99–102。Patro、S.Gopal Krishna和Kishore Kumar Sahu。2015年，《规范化：预处理阶段》，3月号。https://doi.org/10.17148/IARJSET.2015.2305.Shiryaev，阿尔伯特，徐作权，周迅宇。2008年，“你应该购买并持有。”QuantitativeFinance 8（8）：765–76。https://doi.org/10.1080/14697680802563732.Verleysen米歇尔和达米恩·弗朗索瓦。2005年，《数据挖掘和时间序列预测中的维数灾难》，5月号。https://doi.org/10.1007/11494669.Wang、陆、张伟、何晓峰、查宏源。2018年，“基于递归神经网络的监督强化学习，用于动态治疗推荐。”http://arxiv.org/abs/1807.01473.White，D.J.1993年。“马尔可夫决策过程应用综述。”《手术研究学会杂志》44（11）：1073-96。https://doi.org/10.1057/jors.1993.181.William罗恩和沙巴·贾法里。2011年，《蜡烛棒分析》，第9期。熊、卓兰、刘晓阳、单忠、杨红阳、杨布鲁斯和安瓦尔·瓦利德。2018年，《股票交易》，第。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-6-24 08:17:50

i、张、田军、双松、李淑刚、李马、潘少波、韩丽云。2019年，“基于LSTM多维时间序列的气体浓度预测模型研究”能量12（1）：161。https://doi.org/10.3390/en12010161.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群