诸如NERO这样的机器学习游戏将诸如神经演化之类的自适应方法作为游戏玩法的组成部分,通过允许玩家训练自主代理团队来挑战开放式任务的有效行为。然而,严格评估这种人为导向的机器学习方法和由此产生的代理政策团队可能是具有挑战性的,因此很少完成。本文介绍了演化团队代理行为的参与者之间大规模在线锦标赛的结果和分析,并提交给他们进行比较。对比赛提交的球队的分析表明,复杂的,非传统的适应性景观,多个成功的策略和训练方法以及手工构建和随机基线之上的表现。提供的比赛和分析提供了一种实用的方法来研究和改进人造导向的机器学习方法和由此产生的NPC团队行为,可能导致未来更好的游戏和更好的游戏设计工具。
进化计算在机器学习研究的许多领域中显示出有希望的结果,特别是对于使用正式优化技术难以解决的任务,例如涉及多个团队,合作代理或具有多个相互作用的奖励来源的环境的任务。即使在没有正式的学习目标的情况下,进化方法也被证明对这些任务很有效。甚至有迹象表明,明确的目标实际上可能阻碍进化算法产生有趣解决方案的能力[1]。游戏中的神经演化既提供了令人兴奋的机会和有趣的挑战[2]。这些机会包括启动新的游戏,如内容不断变化的游戏,适应玩家的游戏,以及允许玩家训练NPC作为游戏的一部分的游戏。这些新的复杂类型的环境中的策略和算法的客观评估是挑战。 NERO视频游戏[3]最初是为了证明神经演化可以成为解决复杂问题的有力工具。一个人类玩家提供越来越具有挑战性的目标,一个NPC团队的发展是为了实现这些目标,最终在游戏中表现出色。复杂的行为在许多不同的挑战情况下得到了体现,比如运行迷宫,接近敌人,同时避免火灾,协调小型小组的行为。然而,整个团队的最终行为从未相对于彼此进行评估,因此不清楚行为在这个过程中会变得多么复杂,以及游戏中的成功行为可能如何。此外,还不清楚是否有一个简单的获胜策略,只需要细化才能在游戏中做得好,还是有多种好的方法;同样,不清楚获胜是否需要将具有不同技能的个人组合成一个团队,或者可能需要团队组成或行为的在线调整。无论如何,这样的评估是困难的,有两个原因:(1)设计团队需要大量的人力,覆盖大部分设计空间需要许多不同的设计师参与; (2)所得行为的评估需要大量的计算工作,而且不清楚如何最好地消费。本文通过大量采购解决了第一个问题,即在线运行NERO比赛。 2011年斯坦福大学在线AI课程的学生被邀请参加。其中大约85人已经做了很多工作,他们花了大量精力来生产出优秀的团队,从而形成了广泛的方法和解决方案。第二个问题是通过在秃鹰集群中并行运行全面的24,180场比赛,并通过分析提交的球队的策略和性能来解决。然后,比赛的结果用于识别在任务上表现良好的复杂而有趣的行为。发现了三种主要方法,有趣的是,他们中没有一个占主导地位。在最后的结果中,有许多循环,A队击败B队,击败C队,然后击败A队。我们相信,正是这样复杂的互动使得游戏有趣和有趣。因此,以机器学习为中心的游戏可能是未来可行的游戏类型,也是人造导向机器学习和多代理系统研究的生产平台。人为导向的神经演化是在设计这种游戏中使用的一种方法,允许人类在高层次上创造性,同时让机器学习构建实际行为。