全部版块 我的主页
论坛 数据科学与人工智能 人工智能 机器学习
2606 0
2017-07-12

在许多不完善的信息游戏中,利用对手的能力对于实现高性能至关重要。例如,熟练的扑克玩家通常会利用对手的玩法和风格的各种弱点来最大限度地提高收益。因此,重要的是使这些游戏中的电脑玩家能够识别对手策略的缺陷,并适应他们的行为来利用这些缺陷。本文提出了一种遗传算法,用于演化具有有效对手开发的自适应LSTM(长短期记忆)扑克玩家。德州扑克单打无限制的实验结果表明,适应性LSTM玩家能够获得40%至1360%的收益,而不是前锋游戏理论扑克玩家与具有各种有缺陷的策略的对手。此外,实验结果表明,自适应LSTM玩家通过对简单和弱的基于规则的对手进行演化,可以实现与顶级的游戏理论扑克玩家相当的表现。该方法引入的方法是构建适应性计算机玩家不完美信息游戏的有前途的开始。



在不完美的信息游戏中,玩家经常反复对抗一个或多个对手,使得有可能识别和利用对手的游戏模式和策略的缺陷和弱点。诸如德州扑克之类的扑克游戏是这种不完美信息游戏的典型例子。这些游戏中的玩家通常会对数十或数百只手中的一组对手进行攻击,目标是最大限度地发挥所有手中的总收入。当面对强大的对手时,熟练的扑克玩家会有耐心和有意思的动作,寻求最有利可图的机会。当一个强大的对手犯了错误,或者一个弱势的对手,有缺陷的策略筹码,熟练的球员们会毫不犹豫地利用这个机会获得巨大的收益。根据对手的错误或缺陷,熟练的扑克玩家会调整自己的策略,并计算出最大的收益。事实上,惩罚错误和利用弱点的能力是扑克玩家高收入贡献最大的因素之一。在这个意义上,扑克玩家的技能,无论是人力还是计算机,都不仅要通过对最强的玩家的表现来评估,还要通过对缺点和弱点的对手的能力进行评估。为了打造具有有效对手剥削的电脑扑克玩家,必须解决两个挑战。首先,电脑玩家必须能够通过有限的观察来识别对手的缺点和弱点。典型的无限德州扑克锦标赛(决赛桌)仅持续数百手。此外,对手可能会改变自己的策略,从而使窗口发现和利用更短的缺陷和缺点。第二,电脑玩家必须能够根据自己对手的观察情况实时调整自己的策略。由于各种打法和战略的缺陷和缺陷通常需要不同的,有时是相反的对策来实现最大限度的利用,适应必须快速,有效和多才多艺。基于平衡的经典方法并不能解决任何一个挑战。研究人员一直在探索替代方法,包括神经网络,混合策略模型等(LockettMiikkulainen 2008GanzfriedSandholm 2011)。这种对手建模技术在不同复杂度的多个不完美信息游戏中的应用产生了有希望的结果(详见第2节)。本文的目的是为不完善的信息游戏提供适应行为建构计算机代理和有效的对手开发的替代范例。本文介绍了一种基于长短期内存多模块神经网络控制的计算机扑克玩家的遗传算法,有效利用扑克策略中的各种常见缺陷和弱点。与顶级平衡扑克玩家相比,自适应LSTM扑克玩家表现出更好的表现,反对可以利用的弱对手。此外,他们可以调整,以达到与无限制单打德州扑克的最先进的电脑扑克玩家相当的性能。本文的其余部分组织如下。第二节概述相关工作。第3节详细介绍了自适应LSTM扑克玩家的架构和用于演化它们的遗传算法。第4节介绍了德州扑克对各种可以利用的玩家以及前沿游戏理论玩家SlumbotJackson 2016)的无限制单挑实验结果。第5节指出未来工作的方向。


xun.aaai17.pdf
大小:(833.14 KB)

只需: 20 个论坛币  马上下载


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群