全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
969 0
2020-11-02
强化学习:超级马里奥,AlphaGo及其他
我们在机器学习中发现的大多数文献都谈到了两种学习技术–有监督的和无监督的。 监督学习 是我们拥有标记数据集的地方。这意味着我们已经拥有使用线性回归,逻辑回归等算法可从中开发模型的数据。使用此模型,我们可以做出进一步的预测,例如给定的住房价格数据,具有给定功能集的房屋的成本是多少。 无监督学习另一方面,虽然没有标记的数据集,但我们确实有大量数据。我们在此设置中创建的模型仅需要在可用数据中得出模式。我们使用诸如K Means Clustering,K Nearest Neighbors等算法来解决此类问题,例如根据在线购物门户中的用户行为对一组用户进行分组。但是,如果我们没有那么多数据怎么办?如果我们要处理动态环境,并且该模型需要收集数据和实时学习,该怎么办?进入强化学习。在本文中,我们研究什么是强化学习,它如何工作以及其一些实际应用的基础。
通过超级马里奥强化学习
我们所有人都经历过强化学习,这很可能是我们生命的早期。我们只是不知道它的名字。好吧,所以我们年轻时都玩过超级马里奥吧?以防万一您没有或忘记了,这是这样的:
超级马里奥强化学习 300w“ size =”(最大宽度:709px)100vw,709px“ / >
您可能无法完全回忆起您第一次玩Mario的经历,但是就像其他任何游戏一样,您可能一开始都是干净的,不知道该怎么做。您会看到一个环境 ,其中放置了您作为代理人Mario的 环境,该 环境由砖块,硬币,神秘盒子,管道,  被称为Goomba的有情蘑菇和其他元素组成。 在意识到这种情况之前,您需要先按几个键来开始 在这种环境中执行操作,然后才能使用左右箭头键移动Mario。您采取的每项操作都会改变 状态 马里奥 您在一开始就移至最左端,但是什么也没发生,所以您开始向右移。您尝试跳到神秘盒子上,然后 以硬币的形式获得了 奖励。现在,您了解到,每次看到一个神秘盒子,您都可以跳跃并赚取金币。您继续向右移动,然后与Goomba发生碰撞,此后您以死亡的形式获得了 负面奖励 (也称为惩罚)。您可以从头再来,但是到现在为止,您已经知道,您不能太靠近Goomba。您应该尝试其他方法。换句话说,您被“强化”了。接下来,您尝试使用砖块跳转并越过Goomba,但是您会错过神秘盒子中的奖励。所以你需要制定新 政策,这将为您带来最大的收益–给您带来回报,却不会使您丧命。因此,您等待完美的时机,跳下砖头,跳过Goomba。经过多次尝试,您采取了一种这样的措施,使马里奥(Mario)越过Goomba,并将其杀死。然后您有一个“啊哈”时刻;您已经了解了如何消除威胁,现在还可以获得奖励。你跳了一下,这次,不是硬币,是蘑菇。您再次越过砖头吃了蘑菇。您可以获得更大的回报;马里奥现在更强大。这就是强化学习的整体思想。它是一种面向目标的算法,它学习一些技术以在多次迭代中最大程度地实现目标。通过反复试验,强化学习就像人类一样学习。
与其他机器学习技术的比较
与其他机器学习技术相比,RL有一些差异。这些包括:
有 没有导师 来告诉你,如果你做的对还是错。如果做得好,您会得到回报,否则就不会。如果做得不好,甚至可能得到负面奖励。
强化学习增加了另一个维度-时间。可以认为它 介于有监督学习和无监督学习之间。在监督学习中,我们标记了数据,而在无监督学习中,我们没有标记,在强化学习中,我们有时间延迟的标签,我们称之为奖励。
RL具有延迟奖励的概念 。因此,我们刚刚获得的奖励可能并不取决于我们采取的最后行动。奖励之所以完全有可能是因为我们在20次迭代之前所做的事情。在“超级马里奥”中移动时,您会发现碰到一个神秘盒子并不断前进的实例,蘑菇也移动并找到了您。这是从马里奥击中神秘盒子开始的一系列动作,这使他在经过一定的时间延迟后变得更加坚强。
我们现在做出的 选择会影响我们将来的选择。如果我们选择一组不同的动作,则我们将处于完全不同的状态,并且对该状态的输入以及从该状态可以到达的位置将有所不同。如果马里奥(Mario)撞上了神秘的盒子,但在蘑菇开始移动时选择不向前移动,他会错过蘑菇,而且他也不会变强。特工现在的状态与他前进时的状态不同。
RL感觉不像一般的生活吗?
AlphaGo
强化学习于2016年3月出现,当时使用RL训练的DeepMind的 AlphaGo击败了18届世界冠军围棋选手Lee Sedol 4-1 。事实证明,Go的游戏真的很难掌握,比起Chess之类的游戏更是如此,这仅仅是因为游戏中可能存在太多的可能动作和太多的状态。但是AlphaGo是如何打败世界的冠军?
就像Mario一样,AlphaGo经过反复尝试和反复学习。AlphaGo不知道最佳策略,但是知道它是赢还是输。AlphaGo使用树搜索来检查它可以进行的所有可能动作,并查看哪个更好。在19×19的Go板上,有361种可能的移动。对于这361个动作中的每个动作,都有359个可能的第二动作,依此类推。总共大约有4.67×10 ^ 385个可能的移动。太多了 即使具有先进的硬件,AlphaGo也无法尝试其中的每一个动作。因此,它使用另一种名为“蒙特卡罗树搜索”的 树搜索。在此搜索中,仅尝试最有前途的那些动作。每次AlphaGo完成游戏时,它都会更新每步获胜的游戏记录。经过多次迭代之后,AlphaGo大概知道哪个动作可以最大程度地提高获胜的机会。
AlphaGo首先通过模仿真实玩家之间的历史性游戏来进行自我训练。此后,它开始与自己对抗,经过多次迭代,它学会了赢得围棋比赛的最佳动作。在与李·塞多尔(Lee Sedol)对抗之前,AlphaGo在2015年以5-0击败并击败了专业围棋选手Fan Hui。那时,人们并不认为这很重要,因为AlphaGo尚未达到世界冠军的水平。但是他们没有意识到AlphaGo是在击败人类的同时向人类学习。因此,当AlphaGo与Lee Sedol对抗时,它已经超过了世界冠军的水平。AlphaGo与顶级玩家和世界冠军进行了60场在线比赛,赢得了全部60场。AlphaGo于2017年退休,而DeepMind继续在其他领域进行AI研究。
应用领域
娱乐和游戏全都有,但是RL在哪里真正有用?现实世界中有哪些应用?我们将在下面看到其中一些:
机器人与制造
机器人领域是最大的研究领域之一,现在开始显示出真正的希望。教机器人做类似人类的行为是一个主要的研究领域,也是几部科幻电影的一部分。通过强化学习,机器人可以学习类似于人类的行为。使用此功能,简化了工业自动化。特斯拉(Tesla)的工厂就是一个例子,该工厂由160多个机器人组成,这些机器人在汽车上做大量工作以减少缺陷风险。
库存管理
RL可用于减少在仓库中库存和检索产品的运输时间,以优化空间利用率和仓库运营。
电力系统与能源消耗
RL和优化技术可用于评估电力系统的安全性并增强微电网性能。自适应学习方法用于制定控制和保护方案,可以有效地帮助减少传输损失和二氧化碳排放量。此外,谷歌已经使用DeepMind的RL技术来显着降低其自身数据中心的能耗。
文字,语音和对话系统
SalesForce的AI研究使用深层RL根据从某些原始文本文档中提取的内容自动从文本生成摘要。这演示了一种用于公司的文本挖掘解决方案的方法,用于解锁非结构化文本。RL还用于允许对话系统(聊天机器人)从用户交互中学习并帮助他们随着时间的推移而改进。
金融
Pit.AI使用RL评估交易策略。RL在股票市场上有大量应用。任何人都可以使用Q学习算法来潜在地获得收入,而不必担心市场价格或所涉及的风险。该算法足够智能,可以在进行交易时考虑所有这些因素。
数据科学与机器学习
最近有很多机器学习库可以帮助数据科学家,但是选择合适的模型或体系结构仍然是一个挑战。几个研究小组已经提出使用RL来简化设计神经网络体系结构的过程。 Google的AutoML 使用RL生成了用于语言建模和计算机视觉的最新的机器生成的神经网络体系结构。
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群