全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1177 21
2022-06-01
英文标题:
《Agent Inspired Trading Using Recurrent Reinforcement Learning and LSTM
  Neural Networks》
---
作者:
David W. Lu
---
最新提交年份:
2017
---
英文摘要:
  With the breakthrough of computational power and deep neural networks, many areas that we haven\'t explore with various techniques that was researched rigorously in past is feasible. In this paper, we will walk through possible concepts to achieve robo-like trading or advising. In order to accomplish similar level of performance and generality, like a human trader, our agents learn for themselves to create successful strategies that lead to the human-level long-term rewards. The learning model is implemented in Long Short Term Memory (LSTM) recurrent structures with Reinforcement Learning or Evolution Strategies acting as agents The robustness and feasibility of the system is verified on GBPUSD trading.
---
中文摘要:
随着计算能力和深度神经网络的突破,许多我们过去没有用各种技术进行严格研究的领域是可行的。在本文中,我们将探讨实现机器人式交易或咨询的可能概念。为了实现类似水平的绩效和通用性,就像人类交易员一样,我们的代理人会自己学习创建成功的策略,从而获得人类水平的长期回报。该学习模型在长-短期记忆(LSTM)循环结构中实现,强化学习或进化策略作为代理。该系统的鲁棒性和可行性在英镑兑美元交易中得到验证。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-1 04:27:53
使用RecurrentReinforcement学习和LSTM神经网络的代理启发交易参见W.LuEmail:davie。wlu@gmail.comAbstract-随着计算能力和深度神经网络的突破,许多我们过去没有用各种严格研究的技术来探索的领域是可行的。在本文中,我们将探讨实现机器人式交易或咨询的可能概念。为了实现类似水平的绩效和通用性,就像人类交易员一样,我们的代理人会自己学习创建成功的策略,从而获得人类水平的长期回报。该学习模型在长-短期记忆(LSTM)循环结构中实施,并以强化学习或进化策略作为代理。该系统的稳健性和可行性在英镑/美元交易中得到验证。关键词深度学习,长-短期记忆(LSTM),神经网络融资,循环强化学习,进化策略,机器人顾问,机器人交易。引言许多机器学习或人工智能技术可以追溯到20世纪50年代。从模式识别和计算学习理论的研究发展而来,研究人员探索和研究能够对数据进行学习和预测的算法的构造。通过这些预测,研究人员发现了一个学习系统的想法,该系统可以决定一些事情,调整其行为,以最大限度地利用其环境中的信号。这是一个“享乐主义”学习系统的创造。[1] 这种学习系统的思想可以看作是自适应最优控制,现在我们称之为强化学习[2]。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-1 04:27:56
为了达到与人类类似的性能和通用性水平,我们需要直接从原始输入(如视觉)构建和学习知识,而不需要任何手动工程特性,这可以通过深入学习神经网络来实现。将二者结合起来,一些人简单地将其称为深度强化学习,这可以创建一个我们尽可能理智地称之为真正的“艺术智能”的艺术机构。在本文中,我们将重点讨论直接强化或持续强化学习,以引用不必学习值函数即可导出apolicy的算法。一些研究人员将马尔可夫决策过程框架中的策略梯度算法称为直接强化,通常指的是任何不需要学习值函数的强化学习算法。在此,我们将重点关注反复强化学习。动态规划(Dynamic programming)[3]、TD学习(TD Learning)[4]或Q学习(Q-Learning)[5]等方法一直是大多数现代研究的焦点。这些方法在完成本文时,作者为美国银行美林(Bank of America Merrill Lynch)工作。本文中表达的观点和意见是作者的观点和意见,并不一定反映美国银行美林试图学习价值函数的观点或立场。演员-评论家方法(Actor-Critical methods)[6],是直接强化方法和值函数方法之间的中间方法,因为“评论家”学习一个值函数,然后用于更新“演员”的参数。为什么我们选择关注反复强化学习?虽然近几年来在理论上取得了很大的进展,但在金融领域却鲜有公开的应用。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-1 04:27:59
我们作为初创企业、量化对冲基金、客户驱动的投资服务、财富管理公司,以及最近的机器人顾问,一直致力于解决财务决策问题,以便自己进行交易。在强化学习社区中,学习策略与学习价值函数的关系实际上受到了很大的关注。在过去三十年中,前面描述的价值函数方法一直主导着该领域。这种方法在许多应用程序中都很有效,比如alpha Go,训练直升机等等。然而,价值函数方法受到了一些限制。Q学习是在行动空间和离散状态的背景下进行的。在许多情况下,当Q-学习扩展到函数逼近器时,这将遭受“维数灾难”,研究人员已经表明,它无法使用简单的马尔可夫决策过程收敛。脆性意味着价值函数的微小变化可能会导致政策的巨大变化。在交易信号世界中,数据可能存在大量噪声和数据集中的非平稳性,这可能会给值函数方法带来严重问题。循环强化学习可以提供即时反馈以优化策略,能够自然生成真实的值或权重,而无需借助值函数方法所需的离散化。还有其他投资组合优化技术,如进化策略和线性矩阵不等式,它们依赖于预测卵巢矩阵和优化。对于强化学习中的所有优化问题,我们都需要一个目标,并且可以根据风险或回报来制定这样的目标。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-1 04:28:02
穆迪(Moody)等人[7]表明,如何计算夏普比率和下行偏差比率的差分形式,以实现有效的在线学习和循环强化学习,鲁(Lu)[8]表明,使用线性矩阵方程可以击败无风险率,Deng等人[9]已经表明,最大回报率可以作为递归强化学习的目标,也可以使用深度学习转换来初始化特征。为了扩展递归结构,我们将在本文中进一步讨论如何利用时间反向传播方法将递归神经网络展开为一系列无反馈的时间相关堆栈。正如[9]所讨论的,梯度消失问题在这些结构中不可避免地存在。这是因为未展开的神经网络在特征学习和时间扩展部分上抑制了极其深层的结构。我们引入长短时记忆(LSTM)来处理这种缺陷。我们将讨论LSTM的特点以及测试的思想和技术,如辍学[10]。这一策略为预测最终目标和提高学习效率提供了机会。反复强化学习者需要通过梯度上升来优化目标。在本文中,我们还将探索进化策略[11]和纳尔德米德方法[12]中的文献,以搜索梯度或所谓的直接搜索或无导数方法。最后,交易系统将在标普500、欧元兑美元和商品期货市场之间进行测试。本部分的其余部分组织如下。第二节,我们将介绍如何构建交易代理,第三节将介绍如何在plainrecurrent和LSTM中构建递归层。此外,辍学如何影响培训并减少梯度消失问题。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-1 04:28:05
第四节,我们将讨论梯度上升、进化策略和Helderhead方法。第五节,我们将详细介绍第二节至第四节中列出的测试结果和方法比较。第二节总结了他的论文,并对未来的方向提出了想法。二、重复强化学习为了证明交易代理的可行性,我们考虑在单一证券上交易固定头寸大小的代理。这里描述的方法可以推广到交易或优化投资组合、交易证券数量、连续分配资产或管理多个资产组合的更复杂的代理。我们将进一步单独讨论这个问题。有关一些初步讨论,请参见[13]。直觉上,我们会找到一个目标函数,以便代理知道我们要最大化或最小化什么。正如现代投资组合理论(portfoliotheory)所建议的那样,大多数现代基金经理都试图使用夏普比率(Sharpe Ratio)来最大化风险调整后的回报。夏普比率定义如下【14】:ST=平均(Rt)标准偏差(Rt)=E【Rt】qE【Rt】- (E[Rt])(1)其中RTI是交易期的投资回报率,且表示期望值。在现代投资组合理论中,夏普比率越高,投资策略的回报率就越低。正如前面所讨论的,我们可以使用其他函数或比率,但出于演示目的,我们将在本文中使用夏普比率和下行偏差比。下一步,我们需要确定代理商的交易方式。交易员会选择多头、中性或空头头寸。多头头寸是指买入一定数量的证券,而空头头寸则是指卖出证券。在此,为了便于解释和协调,我们将主要遵循[7][15]中的注释。让我们定义一下∈ [-1,0.1]表示时间t的交易头寸。当Ft>0时,沿头寸。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群