全部版块 我的主页
论坛 经济学人 二区 外文文献专区
2749 24
2022-06-14
英文标题:
《Deep Q-Learning for Nash Equilibria: Nash-DQN》
---
作者:
Philippe Casgrain, Brian Ning, Sebastian Jaimungal
---
最新提交年份:
2019
---
英文摘要:
  Model-free learning for multi-agent stochastic games is an active area of research. Existing reinforcement learning algorithms, however, are often restricted to zero-sum games, and are applicable only in small state-action spaces or other simplified settings. Here, we develop a new data efficient Deep-Q-learning methodology for model-free learning of Nash equilibria for general-sum stochastic games. The algorithm uses a local linear-quadratic expansion of the stochastic game, which leads to analytically solvable optimal actions. The expansion is parametrized by deep neural networks to give it sufficient flexibility to learn the environment without the need to experience all state-action pairs. We study symmetry properties of the algorithm stemming from label-invariant stochastic games and as a proof of concept, apply our algorithm to learning optimal trading strategies in competitive electronic markets.
---
中文摘要:
多智能体随机博弈的无模型学习是一个活跃的研究领域。然而,现有的强化学习算法通常局限于零和博弈,并且仅适用于小状态动作空间或其他简化设置。在这里,我们开发了一种新的数据高效的深度Q学习方法,用于一般和随机博弈的纳什均衡的无模型学习。该算法使用随机博弈的局部线性二次展开,从而得到解析可解的最优行为。扩展通过深度神经网络进行参数化,使其具有足够的灵活性来学习环境,而无需经历所有状态-动作对。我们研究了源于标签不变随机博弈的算法的对称性,并将我们的算法应用于竞争电子市场中的最优交易策略学习,作为概念证明。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Computer Science        计算机科学
二级分类:Computer Science and Game Theory        计算机科学与博弈论
分类描述:Covers all theoretical and applied aspects at the intersection of computer science and game theory, including work in mechanism design, learning in games (which may overlap with Learning), foundations of agent modeling in games (which may overlap with Multiagent systems), coordination, specification and formal methods for non-cooperative computational environments. The area also deals with applications of game theory to areas such as electronic commerce.
涵盖计算机科学和博弈论交叉的所有理论和应用方面,包括机制设计的工作,游戏中的学习(可能与学习重叠),游戏中的agent建模的基础(可能与多agent系统重叠),非合作计算环境的协调、规范和形式化方法。该领域还涉及博弈论在电子商务等领域的应用。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-14 13:41:09
Nash均衡的深度Q学习:Nash DQNPhilippe Casgrain:,Brian Ning;,和Sebastian Jaimungal§摘要。多智能体随机博弈的无模型学习是一个活跃的研究领域。然而,现有的强化学习算法通常局限于零和博弈,并且仅适用于小状态动作空间或其他简化设置。在这里,我们开发了一种新的数据效率deep-Q-learning方法,用于一般和随机博弈的纳什均衡的无模型学习。该算法使用随机博弈的局部线性二次展开,从而得到分析可解的最优行为。扩展通过深度神经网络进行参数化,使其能够灵活地学习环境,而无需经历所有状态-动作对。我们研究了源于标签不变随机博弈的算法的对称性,并作为概念证明,将我们的算法应用于竞争电子市场中的最优交易策略学习。1、简介。在自然科学和社会科学中,对相互作用主体系统平衡的研究是普遍存在的。研究这些平衡方程的经典方法是建立相互作用系统的模型,求解其平衡,然后研究其性质。然而,这种方法往往会遇到复杂的情况,因为必须在(i)模型可跟踪性和(ii)捕获其旨在表示的数据主要特征的能力之间取得平衡。与其采用基于模型的方法,不如推导出非参数强化学习(RL)方法来研究这些平衡。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 13:41:12
这些方法背后的主要思想是直接从模拟或观测数据中近似平衡,为常规方法提供了一种强有力的替代方法。关于RL的大多数现有文献都致力于单人游戏。大多数现代方法要么遵循深度Q学习方法(如[16]),要么遵循策略梯度方法(如[18]),要么遵循它们的混合方法(如[7])。RL方法也被开发用于多智能体博弈,但大部分局限于零和博弈的情况。有关详细信息,请参见[1]。最近有一些研究将RL扩展到一般和博弈,如[9]所述,或者如[14]所述,使用迭代定点方法。在(离散状态行动空间)平均场博弈的特定背景下,[6]提供了求解纳什均衡的Q学习算法。现有的许多算法要么是由于游戏的规模和复杂性增加时的计算困难性,要么是由于状态-动作空间变得连续,要么是由于能够模拟复杂的游戏行为。Hu和Wellman[8]介绍了一种基于Q学习的方法来获得一般和随机博弈中的纳什均衡。虽然他们证明了有限游戏和动作空间的游戏算法的收敛性,但他们的方法在计算上不可行,除了SJ想感谢加拿大自然科学和工程研究委员会(NSERC)的支持,[资金参考号RGPIN-2018-05705和RGPAS-2018-522715]:加拿大多伦多大学统计科学系(p。casgrain@utoronto.ca).;加拿大多伦多大学统计科学系(brian。ning@mail.utoronto.ca).§加拿大多伦多大学统计科学系(塞巴斯蒂安。jaimungal@utoronto.ca, http://sebastian.statistics.utoronto.ca.)最简单的例子。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 13:41:15
他们方法中的主要计算瓶颈是需要重复计算状态上的局部纳什均衡,这在一般情况下是一个NP难操作。此外,在[8]中提出的方法不适用于代理选择连续值控制的游戏,也不适用于具有高维游戏状态表示或具有大量玩家的游戏。相反,我们将[19,5]的iLQG框架和[8]的纳什Q-学习算法结合起来,生成了一种可以在这些更复杂和实际相关的环境中学习纳什均衡的算法。特别地,我们将状态动作值(Q)-函数分解为值函数和优势函数之和。我们使用神经网络近似值函数,并且我们局部地将代理行为中的优势函数近似为线性二次函数,系数是神经网络给出的特征的非线性函数。这使我们能够根据网络参数在特征空间中的每个点(即所有代理的最优操作)解析地计算纳什均衡。利用这种封闭形式的局部纳什均衡,我们导出了一种迭代的行动者-批评家算法来学习网络参数。原则上,我们的方法允许我们处理具有大量相同状态特征和较大动作空间的随机博弈。此外,我们的方法可以很容易地适用于平均场博弈(MFG)问题,这是由于某些随机博弈的有限人口限制(见[11、15、2]),如在[3、4]中开发的博弈,或主要次要代理FGS,如在[10、17、12]中研究的博弈。我们提出的方法的一个缺点是对所提出的Q函数逼近器的局部结构的限制。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 13:41:18
然而,我们发现,所提出的近似值在大多数情况下都有很好的表达能力,并且在本文中的数值例子中表现良好。本文的其余部分结构如下。第二节介绍了一般和随机对策的一般马尔可夫模型。在第3节中,我们给出了随机博弈的最优性条件,并激励我们的Q-学习方法来寻找纳什均衡。4介绍了Q函数的局部线性二次近似和结果学习算法。我们还提供了一些标签不变博弈中出现的简化。第5节介绍了实现细节,第6节给出了一些示例。2、模型设置。我们考虑一个具有代理i P N的随机博弈:“t1,2,…,Nu都在一起竞争。我们假设博弈的状态通过随机过程txttpnso表示,对于每个时间t,xtP X,对于一些可分离的Banach空间X。在每个时间t,代理i选择一个动作ui,tP ui,其中ui被假定为可分离的Banach空间。在续集中,我们使用符号u\'i,t“puj,tqjPN{tiuto表示时间t时除agent-i以外的所有agent的动作向量,而符号ut“puj,tqjpn表示所有agent的动作向量。我们假设博弈是一个具有完全可见博弈状态的马尔可夫决策过程(MDP)。MDP假设等价于假设联合状态动作过程pxt,utqt“1是马尔可夫,其状态转移概率由平稳马尔可夫转移核ppxt ` 1 | xt、utq和初始状态分布ppxq定义。在游戏的每个步骤中,代理收到的奖励根据游戏的当前状态、他们自己选择的动作和所有其他代理的动作而变化。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 13:41:22
agenti的奖励由函数px、ui、u'iqThniripx表示;ui,u'iq P R,以便在每个时间t,agent-i累积奖励ripxt;ui、t、u’i、tq。我们假设每个函数Ri在Ui中是连续可微且凹的,并且在x和u’i中是连续的。在每个时间t,agent-i可以观察其他agent的动作u’i,t,以及博弈xt的状态。此外,每个agent-i根据确定性Markovpolicy X Q XTh~nπipxq P Ui选择其动作。agent-i的目标是选择能够最大化目标函数Ri的政策π,该函数代表了他们在游戏剩余过程中的个人预期折扣未来回报,给定了他们自己的固定政策πIf和所有其他玩家的固定政策πIf。agent-i的目标函数为(2.1)Ripx;πi,π'iq“E<<"yt”0γ'tiripxt,πi,t,π'i,tq ff,其中期望值超过过程pxtqtPN,x“x”,其中我们假设γiP p0,1qis是表示贴现率的固定常数。在方程(2.1)中,我们使用压缩旋转πi,t:“πipxtq”和π'i,t:“π'ipxtq”。代理的目标函数(2.1)明确依赖于所有代理的策略选择。然而,每个代理只能控制自己的策略,并且必须在限制所有其他参与者行为的同时选择自己的行为。因此,Agent-i寻求一种优化其目标函数的策略,但对其他人的行为保持鲁棒性。最后代理人的政策形成纳什均衡——一组政策πpxq“tπipxquipn,这样单个代理人单方面偏离该均衡将导致该代理人的目标函数值下降。正式地说,如果(2.2),我们认为一组政策π形成纳什均衡Ri\'x;πi,πiRi\'x;πi,πi适用于所有可接受的保单πi,适用于所有保单N。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群