全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1200 25
2022-06-24
英文标题:
《Dreaming machine learning: Lipschitz extensions for reinforcement
  learning on financial markets》
---
作者:
J.M. Calabuig, H. Falciani and E.A. S\\\'anchez-P\\\'erez
---
最新提交年份:
2020
---
英文摘要:
  We consider a quasi-metric topological structure for the construction of a new reinforcement learning model in the framework of financial markets. It is based on a Lipschitz type extension of reward functions defined in metric spaces. Specifically, the McShane and Whitney extensions are considered for a reward function which is defined by the total evaluation of the benefits produced by the investment decision at a given time. We define the metric as a linear combination of a Euclidean distance and an angular metric component. All information about the evolution of the system from the beginning of the time interval is used to support the extension of the reward function, but in addition this data set is enriched by adding some artificially produced states. Thus, the main novelty of our method is the way we produce more states -- which we call \"dreams\" -- to enrich learning. Using some known states of the dynamical system that represents the evolution of the financial market, we use our technique to simulate new states by interpolating real states and introducing some random variables. These new states are used to feed a learning algorithm designed to improve the investment strategy by following a typical reinforcement learning scheme.
---
中文摘要:
在金融市场的框架下,我们考虑一种准度量拓扑结构来构建一个新的强化学习模型。它基于度量空间中定义的奖励函数的Lipschitz型扩展。具体而言,McShane和Whitney扩展被视为一个奖励函数,该函数由对给定时间投资决策产生的效益的总体评估来定义。我们将度量定义为欧氏距离和角度度量分量的线性组合。从时间间隔开始,有关系统演化的所有信息都用于支持奖励函数的扩展,但此外,通过添加一些人工生成的状态,该数据集也得到了丰富。因此,我们的方法的主要创新之处在于我们产生更多状态的方式——我们称之为“梦”——以丰富学习。利用代表金融市场演化的动力系统的一些已知状态,我们使用我们的技术通过插值真实状态和引入一些随机变量来模拟新状态。这些新状态被用来提供一种学习算法,该算法通过遵循典型的强化学习方案来改进投资策略。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Mathematics        数学
二级分类:Functional Analysis        功能分析
分类描述:Banach spaces, function spaces, real functions, integral transforms, theory of distributions, measure theory
Banach空间,函数空间,实函数,积分变换,分布理论,测度理论
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-24 09:08:19
梦幻机器学习:金融市场强化学习的LIPSCHITZ扩展。M、 CALABUIG、H.FALCIANI和E.A.S’ANCHEZ-P’EREZAbstract。我们考虑一种准度量拓扑结构,用于在金融市场框架下构建新的强化学习模型。它基于度量空间中定义的奖励函数的Lipschitz型扩展。具体而言,McShane和Whitney扩展被视为一个奖励函数,该函数由对给定时间投资决策产生的收益的总体评估确定。我们将度量定义为欧几里德距离和角度度量分量的线性组合。从时间间隔开始,有关系统演化的所有信息都用于支持报酬函数的扩展,但此外,通过添加一些人工生成的状态,该数据集也得到了丰富。因此,我们的方法的主要创新之处在于我们产生更多状态的方式——我们称之为“梦”——以丰富学习。利用代表金融市场演变的动力学系统的一些已知状态,我们使用我们的技术通过插值真实状态和引入一些随机变量来模拟新状态。这些新状态用于提供学习算法,该算法旨在通过遵循典型的强化学习方案来改进投资策略。简介度量空间中的Lipschitz函数理论是自机器学习开始以来经常被考虑的理论工具。事实上,许多年前,一些早期的论文发表了关于地图Lipschitz扩展的几个理论方面,这些理论可以解释为强化学习过程的基础。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 09:08:22
作为一个例子,在1967年的论文[3]中,读者可以找到McShane和Whitney扩展的一些应用,这两个扩展在本文中被称为上下函数,用于现在可以识别为机器学习问题的问题。此外,读者可以在[50]中找到关于所谓绝对最小扩展的一些结果,这也可以被视为与机器学习方法相关的扩展程序的数学基础。此外,在[4,18,44]及其参考文献中,Lipschitz函数在机器学习中有一些明确的应用。然而,Lipschitz函数与机器学习数学框架的主要关系与Lipschitz连续性的概念有关,它允许控制所涉及函数的规律性和光滑性,如2010年数学学科分类所示。初级68Q32;46Q10。中学68T05;关键词和短语。伪度量;强化学习;Lipschitz扩展;数学经济学;金融市场;模型第三作者感谢西班牙经济与竞争部(Ministerio de Economo'a y Competitividad)和联邦快递(FEDER)在MTM2016-77054-C2-1-P赠款下的支持。2 J.M.CALABUIG、H.FALCIANI和E.A.S’ANCHEZ-P’EREZin【4】和【70,第2节】。关于为什么这些要求在几种机器学习技术中是必要的,可以在[9]中找到完整的解释;原因是,正是这种相同的条件使得Lipschitz条件在控制理论中如此相关(参见示例[15,26,41])。本文提出了一种以不同方式使用Lipschitz函数理论的新技术。我们将注意力集中在Lipschitz函数的McShane-Whitney型扩展上,它是预测动力系统下一步中报酬函数值的主要工具。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 09:08:35
本研究中考虑了几种方法,如Q-learning(Q-learning)[20,36,56],Recurtive(2,20)]和adaptive(16,34)]强化学习技术,通常从其他环境中引入工具[5,6,47]。所谓的深度强化学习是最近的一种理论背景,其中经典强化学习技术与其他一些方法一起使用,主要来自基于神经网络和其他技术的后期发展【17、27、29、74】。我们必须提到的是,由于金融序列预测问题的高度复杂性,还使用了与我们所解释的方法核心无关的其他技术。例如,已经做出了很大的努力,将文本挖掘[55,68]、情感分析[30,39]和语义分析[8,10,42]中的参数和工具添加到这些过程中。关于数学经济和金融市场模型的相关工作,我们在一个相当经典的框架中发展了我们的方法。我们对奖励函数的定义始于一种二元关系,这种二元关系类似于基于功能分析工具的市场模型的核心——社区奖二元关系(参见示例[1,Ch.8])。虽然我们的方法引用了一些概率工具,但我们并不认为我们的学习方法是基于随机参数的。然而,从哲学上讲,我们可以参考随机市场建模的一些联系,具体地说,是指所谓的连续时间市场模型,例如参见[31,Ch.2],因为在前一步中,基于我们案例中的预测奖励函数,准确地给出了关于以下步骤的决定。4 J.M.CALABUIG、H.FALCIANI和E.A.S'ANCHEZ-P'errez为了清晰地解释我们的技术,我们将重点介绍与股票市场动态相关的特定问题。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 09:08:41
事实上,我们的度量并不是机器学习中使用的经典距离之一(例如,请参见[28]中第一节和第二节的注释)。我们以一种特殊的方式为Lipschitz映射使用McShane和Whitney扩展,以扩展一种新颖设计所定义的一些奖励函数。引入“梦想”以增加训练集的规模的过程还需要一些拓扑工具,这些工具基于通过特定度量相似性方法构建的等效类计算出的平均值。尽管我们所知的数学方法是新的,但读者可以在[4,19]中找到一些相关的想法。集M上的拟伪度量是函数d:M×M→ R+-非负实数的集合-如(1)d(a,b)=0,如果a=b,和(2)d(a,b)≤ d(a,c)+d(c,b)表示a,b,c∈ M、 拓扑由这样一个函数d定义:开放球定义了邻域的基础。对于ε>0,我们定义半径ε和中心ina的球∈ M asBε(a):=nb∈ M:d(a,b)<εo.(M,d)称为拟伪度量空间。本文主要研究伪度量,即d(a,b)=d(b,a)对于所有a,b∈ M、 或者度量,当且仅当a=b时,另外满足d(a,b)=0。在这种情况下,由Dreaming MACHINE LEARNING 5d定义的拓扑满足Hausdorff分离公理。然而,我们更愿意在这个更一般的背景下提出我们的一些想法,因为我们的技术的基本元素可以很容易地外推到更一般的准伪度量情况。这一事实是相关的,因为度量概念定义的不对称性(准度量情况)对于动态过程的建模至关重要,在动态过程中,时间变量的依赖性改变了与距离相关的概念。像往常一样,我们将使用metric和distance作为同义词。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 09:08:47
惠特尼公式,由(2.3)TW(a)给出:=infb∈M{T(b)+kd(a,b)},a∈ M、 还提供扩展。我们将在本文中使用第一种方法,尽管使用第二种方法时某些结果也是正确的,我们将对此进行解释。读者可以在[4,44]及其参考文献中找到与我们的想法直接相关的最新技术信息。具体而言,一些与机器学习函数Lipschitzextensions相关的应用工具可以在[24,33,44]中找到。关于数学分析在机器学习中的应用,可以在[64]中找到一般计划;具体而言,Lipschitzmaps的基本定义、示例和结果可在本书第5.10节和[13]中找到。我们将使用标准符号;我们写k·k,k·k和k·k∞对于“、”和`∞分别称为1-范数、2-范数(或6 J.M.CALABUIG、H.FALCIANI和E.A.S'ANCHEZ-P'EREZthe Eclidean范数)和∞-正常,像往常一样。如果X是赋范空间,我们用bx和sx分别表示X的闭单位球和单位球。3、状态度量空间和Lipschitz映射:一种机器学习算法我们将把金融市场(一个动态系统)中应用的一组策略建模为一个由n个项目(系统状态)的有限序列组成的度量空间,其中n是市场中可能发生状态变化(购买/出售事件)的次数。我们还将考虑一个奖励函数,该函数假定为已知的某一策略子集-初始“训练集”。使用我们在导言部分提到的著名的Lipschitz函数在度量空间上扩展的理论技术,我们将通过搜索这些项目的不同部分之间的“相似性”,为更大的策略集构建计算改进奖励函数的必要工具。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群