基于循环强化学习和LSTM的Agent激励交易

2022-6-1 04:27:56

为了达到与人类类似的性能和通用性水平，我们需要直接从原始输入（如视觉）构建和学习知识，而不需要任何手动工程特性，这可以通过深入学习神经网络来实现。将二者结合起来，一些人简单地将其称为深度强化学习，这可以创建一个我们尽可能理智地称之为真正的“艺术智能”的艺术机构。在本文中，我们将重点讨论直接强化或持续强化学习，以引用不必学习值函数即可导出apolicy的算法。一些研究人员将马尔可夫决策过程框架中的策略梯度算法称为直接强化，通常指的是任何不需要学习值函数的强化学习算法。在此，我们将重点关注反复强化学习。动态规划（Dynamic programming）[3]、TD学习（TD Learning）[4]或Q学习（Q-Learning）[5]等方法一直是大多数现代研究的焦点。这些方法在完成本文时，作者为美国银行美林（Bank of America Merrill Lynch）工作。本文中表达的观点和意见是作者的观点和意见，并不一定反映美国银行美林试图学习价值函数的观点或立场。演员-评论家方法（Actor-Critical methods）[6]，是直接强化方法和值函数方法之间的中间方法，因为“评论家”学习一个值函数，然后用于更新“演员”的参数。为什么我们选择关注反复强化学习？虽然近几年来在理论上取得了很大的进展，但在金融领域却鲜有公开的应用。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 04:27:59

我们作为初创企业、量化对冲基金、客户驱动的投资服务、财富管理公司，以及最近的机器人顾问，一直致力于解决财务决策问题，以便自己进行交易。在强化学习社区中，学习策略与学习价值函数的关系实际上受到了很大的关注。在过去三十年中，前面描述的价值函数方法一直主导着该领域。这种方法在许多应用程序中都很有效，比如alpha Go，训练直升机等等。然而，价值函数方法受到了一些限制。Q学习是在行动空间和离散状态的背景下进行的。在许多情况下，当Q-学习扩展到函数逼近器时，这将遭受“维数灾难”，研究人员已经表明，它无法使用简单的马尔可夫决策过程收敛。脆性意味着价值函数的微小变化可能会导致政策的巨大变化。在交易信号世界中，数据可能存在大量噪声和数据集中的非平稳性，这可能会给值函数方法带来严重问题。循环强化学习可以提供即时反馈以优化策略，能够自然生成真实的值或权重，而无需借助值函数方法所需的离散化。还有其他投资组合优化技术，如进化策略和线性矩阵不等式，它们依赖于预测卵巢矩阵和优化。对于强化学习中的所有优化问题，我们都需要一个目标，并且可以根据风险或回报来制定这样的目标。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 04:28:02

穆迪（Moody）等人[7]表明，如何计算夏普比率和下行偏差比率的差分形式，以实现有效的在线学习和循环强化学习，鲁（Lu）[8]表明，使用线性矩阵方程可以击败无风险率，Deng等人[9]已经表明，最大回报率可以作为递归强化学习的目标，也可以使用深度学习转换来初始化特征。为了扩展递归结构，我们将在本文中进一步讨论如何利用时间反向传播方法将递归神经网络展开为一系列无反馈的时间相关堆栈。正如[9]所讨论的，梯度消失问题在这些结构中不可避免地存在。这是因为未展开的神经网络在特征学习和时间扩展部分上抑制了极其深层的结构。我们引入长短时记忆（LSTM）来处理这种缺陷。我们将讨论LSTM的特点以及测试的思想和技术，如辍学[10]。这一策略为预测最终目标和提高学习效率提供了机会。反复强化学习者需要通过梯度上升来优化目标。在本文中，我们还将探索进化策略[11]和纳尔德米德方法[12]中的文献，以搜索梯度或所谓的直接搜索或无导数方法。最后，交易系统将在标普500、欧元兑美元和商品期货市场之间进行测试。本部分的其余部分组织如下。第二节，我们将介绍如何构建交易代理，第三节将介绍如何在plainrecurrent和LSTM中构建递归层。此外，辍学如何影响培训并减少梯度消失问题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-6-1 04:28:05

第四节，我们将讨论梯度上升、进化策略和Helderhead方法。第五节，我们将详细介绍第二节至第四节中列出的测试结果和方法比较。第二节总结了他的论文，并对未来的方向提出了想法。二、重复强化学习为了证明交易代理的可行性，我们考虑在单一证券上交易固定头寸大小的代理。这里描述的方法可以推广到交易或优化投资组合、交易证券数量、连续分配资产或管理多个资产组合的更复杂的代理。我们将进一步单独讨论这个问题。有关一些初步讨论，请参见[13]。直觉上，我们会找到一个目标函数，以便代理知道我们要最大化或最小化什么。正如现代投资组合理论（portfoliotheory）所建议的那样，大多数现代基金经理都试图使用夏普比率（Sharpe Ratio）来最大化风险调整后的回报。夏普比率定义如下【14】：ST=平均（Rt）标准偏差（Rt）=E【Rt】qE【Rt】- （E[Rt]）（1）其中RTI是交易期的投资回报率，且表示期望值。在现代投资组合理论中，夏普比率越高，投资策略的回报率就越低。正如前面所讨论的，我们可以使用其他函数或比率，但出于演示目的，我们将在本文中使用夏普比率和下行偏差比。下一步，我们需要确定代理商的交易方式。交易员会选择多头、中性或空头头寸。多头头寸是指买入一定数量的证券，而空头头寸则是指卖出证券。在此，为了便于解释和协调，我们将主要遵循[7][15]中的注释。让我们定义一下∈ [-1，0.1]表示时间t的交易头寸。当Ft>0时，沿头寸。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

何人来此

2022-6-1 04:28:08

在这种情况下，交易者以Pt的价格购买证券，并希望价格在t+1期间上涨。当Ft<0时为空头位置。在这种情况下，交易者以Pt的价格短期出售（借入以出售）证券，并希望价格在t+1期间下跌，以便交易者可以回购该证券以返还其借入的证券。直观地说，可以使用Tanh函数来表示此设置，因为它从-1变为1。我们将交易者函数定义为：Ft=tanh（wTxt）（2），其中xt=[rt-m+1。。。rt]和返回rt=pt- pt公司-1注意，交易者函数还可以添加偏差项b和带有参数u的最后交易决策，以添加到回归中。带有参数的最新交易决策可以阻止代理频繁改变交易头寸，避免巨大的交易成本。然后我们可以重写方程toFt=tanh（wTxt+b+uFt-1）（3）将股票数量与交易成本c相加为s，我们可以在t asRt=s（Ft）时写入回报-1rt- c |英尺- 英尺-1 |）（4）通过设置上述要素，我们现在可以尝试使用梯度上升或其他方法来最大化夏普比率，我们将在第四节中进一步讨论这些方法，以确定代理使用的最佳权重。让我们再次思考给定的交易系统模型Ft，目标是调整参数或权重w，以最大化ST。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 04:28:11

我们可以将权重写如下：wt=wt-1+ρdStdwt=重量-1+w（5）式中，wt是时间t处网络的任何权重，sti是我们希望最大化或最小化的度量，ρ是不可调整的学习速率。在一系列T周期内，检查STor梯度相对于权重w的导数为：dSTdw=TXt=1dSTdRtdRtdFtdFtdw+dRtdFt-1英尺-1dw（6）然后，可以通过重复计算STon forward的值通过以下数据在批处理模式下对交易者进行优化：dRtdFt=-scsign（英尺=英尺-1）（7）dRtdFt-1=rt+scsign（英尺=英尺-1）（8）dFtdw=英尺w+英尺英尺-1英尺-1dw（9）由于固有的重复性，数量dFt/dw是依赖于之前时间段的整个序列的总导数。换句话说，dFt/dw是循环的，依赖于所有以前的值。虽然它确实减慢了梯度，但由于现代计算能力和样本范围，它并没有带来不可逾越的负担。为了正确计算和优化这些总导数，我们可以部署类似于反向传播时间（BPTT）中的引导方法【16】。或者，可以使用简单的在线随机优化，只考虑（6）中的项，该项取决于数据前向传递期间最近实现的回报率Rt。（6）中的方程式变为：dStdw≈TXt=1dStdRtdRtdFtdFtdw+dRtdFt-1英尺-1dw（10）这种算法执行随机优化或有效地使算法成为随机梯度上升。如前所述，还有其他方法可以最大化目标函数。我们将在第四节中进一步讨论。我们还测试了梯度学习算法的权重衰减变量，如【15】所述，以验证其性能。使用权重衰减，（5）变为：wt=wt-1+ρdStdwt- νwt=-1=重量-1(1 - ν) + w（11），其中ν是重量衰减系数。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 04:28:14

添加权重衰减可以提高中立型网络的性能，因为权重越小，数据中的噪声越小。与[15]中的发现类似，权重衰减对单层神经网络没有帮助，因为从理论上讲，它的目的是简化神经网络学习的规则，防止神经网络记忆数据中的噪声。下一节将介绍深度学习转型和辍学，以更好地调整绩效。虽然夏普比率是使用最广泛的风险调整指标，但它提供的排名表明，这与投资者的风险意识背道而驰，因为方差或Rtas风险度量的使用无法区分上行风险和下行风险，因此会对大额正收益或负收益进行惩罚。对大多数投资者来说，风险是指投资组合中降低其盈利能力的回报。在本文中，我们将使用递归神经网络和下行偏差率对这两种信号进行实验，以保护下行风险。与方程（1）类似，我们可以将下行偏差率定义如下：DT=平均（Rt）DDT=E[Rt]pE[min[Rt，0]]（12）方程（5）becomeswt=wt-1+ρdDtdwt=wt-1+w（13）计算上，如果这里的0被描述为一个非常小的数字，那么它将更容易。我们将在第五章第三节LSTM中检查下侧偏差率和夏普比率的性能，以获取信息性特征学习。为了进一步研究，我们试图找到在估计协方差矩阵[17]或特征[9]时考虑决策目标的有效算法。作为前者的一个例子，有向主成分分析（Directed Principal ComponentAnalysis）[17]用于在考虑决策目标的情况下估计协方差矩阵。这种方法可用于投资组合估计和预测。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 04:28:17

后者试图使用深度神经网络转换或模糊学习方法来帮助理解我们输入到循环强化学习结构中的信号【9】。在此，我们将探讨如何使用长-短期记忆。我们实现了LSTM（长-短期记忆）[18]，以了解和动态感知市场状况，并将其用于信息性特征学习。从理论上讲，递归神经网络的出现是因为它可以将以前的信息与我们要完成的当前任务联系起来。不幸的是，在实践中，相关信息与所需信息之间的差距可能变得非常大。随着差距的扩大，RNN无法学会连接信息[19]。LSTMwas于1997年首次引入【18】，以解决长序列建模的困难。根本问题是，在许多阶段传播的梯度要么消失，要么爆炸。在传统的递归神经网络中，在梯度反向传播阶段，梯度信号最终可以乘以与递归隐藏层神经元之间的连接相关的权重矩阵，乘以大量的次数，可能与时间步长的次数相同。换句话说，transitionmatrix中权重的大小会对学习过程产生很大的影响。如果该矩阵中的权重很小，则会导致梯度消失，梯度信号变得很小，以至于学习速度很慢或完全停止工作。除此之外，如果梯度信号较大时，该矩阵中的权重较大，我们通常将其称为分解梯度。之前，我们讨论了基于递归神经网络的问题。这些问题是LSTM模型背后的主要动机，该模型引入了一种称为阿米细胞的新结构。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-6-1 04:28:20

存储单元由四个主要元素组成：输入门、具有自回归连接的神经元、目标门和输出门。自循环连接确保存储单元的状态在一个时间步到另一个时间步之间保持不变。输入门允许输入信号改变或阻止存储单元的状态。输出门可以允许记忆细胞的状态影响或阻止其他神经元。最后，遗忘门可以调节记忆细胞的自我循环连接，允许细胞根据需要记住或忘记其先前的状态。我们可能想知道，当LSTM的目的是将遥远的事件链接到最终输出时，为什么它有一个遗忘门。例如，当我们分析一个时间序列并将其结束时，您可能没有理由相信下一个时间实例与前一个时间实例有任何关系，因此在下一个实例之前，应该将内存单元设置为零。在图1中，我们可以看到门是如何工作的，直线表示关闭的门，开放的圆表示打开的门。隐藏层上水平排列的线和圆就是遗忘之门。记住这个概念，让我们浏览一下数学表达式。我们将尽可能简单地使用这些符号来解释。更多阅读和详细讨论请参见[20]。请注意，如果与第二节有任何重叠，则本节中使用的符号与第二节中使用的符号不同。这里，x是时间t的输入向量，hts是隐藏层向量，W是输入权重矩阵，U是当前权重矩阵，b是偏移向量。功能图。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 04:28:23

1： LSTM递归神经网络的示例σ、m和n是逐点非线性激活函数。逻辑乙状结肠（1+e-x）用于门或σ的激活函数，双曲正切tanh用作块输入和块输出激活函数（m，n）。最后，两个向量的逐点乘法表示为我们可以编写如下表达式：块输入：yt=m（Wyxt+Uyht-1+by）（14）输入门：it=σ（Wixt+Uiht-1+bi）（15）忘记闸门：ft=σ（Wfxt+Ufht-1+bf）（16）电池内部状态：ct=it yt+英尺计算机断层扫描-1（17）输出门：ot=σ（Woxt+Uoht-1+bo）（18）块输出：zt=ot n（ct）（19）人们可以探索LSTM的其他变体，例如带窥视孔的LSTM【21】和最近的AssociatelSTM【22】。我们选择了带遗忘门的LSTM，因为它是一种简单的常用LSTM配置，符合我们的目的。LSTM递归神经网络包含各种非线性隐含层，这使得它们非常有表现力，可以学习输入和输出之间的复杂关系。然而，这种复杂的关系将是采样噪声的结果，因此它们将存在于训练集中，而不存在于实际数据中，即使它是从相同的分布中提取的。如【23】所述，这会导致过度匹配。其中一种称为辍学的正则化技术就是解决这个问题。它将防止过度拟合，并提供将许多不同的神经网络架构有效结合的途径。有趣的是，除非正确应用，否则辍学者将无法很好地使用RNN和LSTM。[24]向我们展示了如何正确地将辍学应用于LSTM。其主要思想是只对非递归层应用dropout操作符。图2：。显示仅适用于短划线箭头而不适用于实心箭头的下拉列表。从数学上来说，假设（17）中的方程在我们的深层LSTM中有总共个层。块输出变为ztL。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-6-1 04:28:26

ztlis在时间步t中的层l中的隐藏状态。确定性状态转换是一个函数RNN:ztl-1，zt-1升→ ztlwhere D是一个dropout操作，它将参数的随机子集设置为零，D（ztl-1). 辍学的输入通常介于0和1之间。其中，我们定义了输入线性变换的单位下降百分比。图2：在LSTMT上应用辍学者的示例，以利用递归神经网络、合并LSTM和辍学者的优势来应对递归神经网络的挑战。这是我们的第二步，旨在创建能够达到类似性能和通用性水平的艺术代理。在本节中，我们创建了特征学习框架（FeatureLearningFramework），以构建信息性特征表示，供代理使用。在下一节中，我们将回到强化学习，以了解基于我们的目标求解权重的方法。四、回顾金融世界中的梯度上升、进化策略和其他梯度搜索，能够直观地解释和解释我们部署的假设和模型，与模型本身的有效性和复杂性同等重要。我们在第二节中详细讨论了梯度上升，以确定最佳夏普比。在本节中，我们将探讨更接近“黑箱”优化的其他方法。这些方法背后的动机是，许多现实世界的优化问题太复杂，无法直接建模。在过去的三十年中，该领域已经开发并应用了许多算法，在许多情况下，这些算法为极端复杂的任务提供了接近最优的解决方案。启发式方法，是指任何采用实际方法解决问题、学习或发现问题的方法，这些方法不保证是最优或完美的，但足以实现眼前目标。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 04:28:29

当无法或不可行找到最佳解决方案时，可以使用启发式方法加快找到满意解决方案的过程。有时，要获得全局最优解几乎不可行，需要在黑盒算法中进行大量的启发式，因此，这可能会导致有时很难解释的方法可以立即看到高性能。虽然在本文中，我们将基于代理的交易局限于单个资产，但我们研究了这些方法，为以后在portfoliooptimization中的扩展做准备。黑盒优化问题已经发展到各种各样的方法。1965年提出的第一类方法是尼尔德·米德[25]，其灵感来自经典的优化方法，如simplexmethods。前面提到的更多启发式方法受到了自然进化的启发。这是一类随机优化和适应技术，从20世纪50年代初开始发展。包括一类广泛的遗传算法-进化、分布估计算法、粒子群优化算法【26】、交叉熵方法【27】、协方差矩阵自适应进化策略CMA-ES【28】，许多人认为CMA-ES是进化计算、自然解决策略和进化的“行业标准”【29】。在优化中，一个问题通常由一组n个参数x。。。X和一个目标函数f，在进化算法的上下文中也称为适应度函数。优化过程的目标是确定一组n个变量w。。。Wn使目标函数优化。在不丧失一般性的情况下，只考虑最小化任务就足够了，因为最大化f相当于最小化-f

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 04:28:32

这在Python、Matlab或R中的各种优化库的实际实现中非常有用。我们上面提到的每个进化算法都是用不同的方法设计的。尽管存在差异，所有进化算法都是基于群体的启发式搜索过程，包含随机变化和选择。在每次迭代i（也称为一代）中，进化算法通常从u个父代生成λ个子代。每个子代都是通过复制一个父代并向父代参数x添加一个变异向量z来生成的。在进化规划和进化策略中，z的所有分量都是典型的高斯分布，具有平均零和标准偏差。标准偏差也称为步长。通过评估目标函数，evolutionaryalgorithms为每个子代分配一个适应度值，并选择子代作为下一个迭代（世代）的父代。进化规划和进化策略的一个非常重要的特征是它们能够自适应步长。对于进化规划和进化策略来说，通过将迭代i处的标准偏差作为附加参数来执行自适应是非常常见的。以CMA-ES为顶点的进化策略被设计用于处理高维连续值域。多年来，该算法框架得到了广泛的发展，包括搜索参数的自适应，以及通过使用全协方差矩阵表示相关变异。这使得框架能够通过利用协方差来捕获相互关联的依赖关系，同时为下一代变异个体。虽然进化策略被证明是黑箱优化的一种有效方法，但它们的特殊过程本质上仍然是启发式的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 04:28:35

许多文献已经证明，要彻底分析过程的实际动态，结果是很困难的[11][30]自然进化策略（NE）[31]是受进化策略启发的黑箱优化算法，它不是保持搜索点的数量，而是迭代更新搜索分布。这些类型的方法使用自然梯度，以更高的预期能力更新搜索分布。与CMA-ES一样，它们也可以被纳入进化策略的框架中。自然解策略已成功应用于黑箱优化[28]，以及递归神经网络中递归权重的训练[29]。我们对使用Evolino训练复发性神经网络特别感兴趣。Evolino计算非线性和隐藏节点的权重，同时计算从隐藏状态到输出的最佳线性映射。在未来的工作中，我们将比较portfoliooptimization优化中的线性矩阵不等式[8][32]。我们快速回顾了优化方法，对于我们来说，最初使用梯度上升（如第I节所述）是最佳的。我们更容易解释和实现基于agent的强化学习模型。然而，使用进化策略实现更复杂和多资产的优化是可行的。五、实证结果本节展示了我们试图解决的三个问题的实证结果。一个是等式（3）中有偏差的termb将如何影响交易频率、交易成本和利润。虽然对冲基金可能会采用频繁交易策略，但许多被动基金、另类投资管理基金和个人投资者可能需要较少的交易频率。我们的机器人交易员很容易做到这一点。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-1 04:28:38

二是递归神经网络与LSTM递归神经网络之间的性能。最后但并非最不重要的一点是，我们将不仅尝试最大化下行偏差率，还将在时间序列持续下降的情况下输入信号和波动信号，以尝试保护投资的下行。我们还将比较使用下行偏差率和夏普比率的性能。这些外汇模拟证明了循环强化学习算法在真实金融价格序列中发现交叉结构的能力。我们的目标是在几乎不需要手动参数调整的情况下找到最佳解决方案，并可以优化任何交易期的性能。为了进行实验，它是用Python实现的，带有Pandas、Numpy、Sklearn、Keras和Tensor flow库。我们从美元/英镑价格系列中提取2000个数据点，我们使用2017年6月1日至2017年3月2日的1000个30分钟间隔价格点作为训练集，再次使用2017年3月2日至2017年6月3日的1000个30分钟间隔价格点作为测试集。回顾方程（4），sFt的第一项-1是t-1期间投资决策的回报。例如，如果S=10股，交易者做出的决定是购买允许的最大值的一半，每股增加rt=2。然后，这个期限将是10，这是忽略t期间发生的交易成本的总回报率。F期限可以是长的、短的或中性的，也可以用数学表示为[-1,1]。我们在本实验中使用的所选机器人交易员将使用LSTM以及具有55%辍学率和连续200个预测数据点的重复强化学习。我们将在第二个问题中进一步讨论递归强化学习与递归强化学习的区别。我们将有偏项一设为b=1，一设为b=5。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝