AI(
深度学习)简单地解释
自1960年代开始就承诺像HAL 9000这样的科幻级
人工智能(AI),但直到最近,个人电脑和机器人还是很笨。现在,科技巨头和初创公司宣布了AI革命:无人驾驶汽车,机器人医生,机器人投资者等。普华永道刚刚表示, 到2030年AI将为世界经济贡献 15.7万亿美元。“ AI”是2017年的流行语,例如“ dot com”是在1999年,每个人都声称自己进入了AI。不要被AI的宣传所迷惑。这是泡沫还是真实的?旧版AI翻牌有什么新变化?
AI的应用并不容易或迅速。最令人兴奋的AI示例来自大学或科技巨头。自我任命的AI专家承诺会在短时间内用最新的AI革新任何公司,他们正在犯 AI错误信息,有些只是将旧技术更名为AI。每个人都已经在通过Google,Microsoft,Amazon等服务使用最新的AI。但是大多数企业将不会针对定制的内部项目掌握“深度学习”。大多数都没有足够的相关数字数据,不足以可靠地训练AI。结果,AI不会杀死所有工作,特别是因为它需要人类训练和测试每个AI。
AI现在可以“看到”并掌握视觉工作,例如 从医学图像中识别癌症或其他疾病,在统计上比人类放射科医生,眼科医生,皮肤科医生等要好。并且可以开车,读嘴唇等。AI可以 以任何学到的样式绘画 从样本(例如毕加索或您的样本)中提取样式,然后将样式应用于照片。反之:从一幅画中猜出一张逼真的照片,使丢失的细节产生幻觉。查看网页或应用程序屏幕截图的AI可以编写产生相似页面或应用程序的代码。
(样式转换:从照片中学习,然后应用于其他照片。图片来源:Andrej Karpathy)
现在,AI可以“听到”,不仅可以理解您的声音:它可以按照甲壳虫或您自己的风格来创作音乐,模仿一段时间内听到的任何人的声音,等等。一般人无法说出人类或机器组成的绘画或音乐是什么,或者人类或AI模仿者所说的声音是什么。
训练有素的AI在扑克游戏中获胜后, 学会了虚张声势,处理丢失的信息以及潜在的虚假,误导性信息。机器人训练有素的谈判和发现妥协,学会了 欺骗 ,猜测您何时没有告诉他们真相,并根据需要撒谎。Google翻译的AI仅接受过日语(英语)和韩语(英语)示例的培训,还翻译过韩语(日语),这是一种未经培训的语言对 。似乎它自己构建了一种中间语言,可以代表任何句子,而与语言无关。
机器学习(ML)是AI的子集,它使机器 可以 从经验,真实世界的示例中学习:数据越多,学习的内容就越多。如果一台机器在执行任务时的性能随经验而提高,则可以从经验中学习。大多数AI仍然由固定规则构成,并且不学习。从现在开始,我将使用“ ML”来指代“从数据中学习的AI”,以强调区别。
人工神经网络(ANN) 只是ML的一种方法,其他(不是ANN)包括决策树,支持向量机等。 深度学习 是具有许多抽象级别的ANN。尽管“深度”炒作,许多ML方法还是“浅”的。胜出的ML往往是一个组合,一个 集合 的方法,如树木+深度学习+其它,独立训练,然后结合在一起。每种方法可能会产生不同的错误,因此取其平均结果有时可能会胜过单个方法。
旧的AI没有学习。它是基于规则的,由人类写了几个“如果……那么那么”:这可以是AI,因为它可以解决问题,但不能是ML,因为它不能从数据中学习。当前大多数AI和自动化系统仍然是基于规则的代码。ML自1960年代就广为人知,但像人的大脑一样,它需要对大量数据进行数十亿次计算。要在1980年代的PC上训练ML,需要几个月的时间,而数字数据却很少。手工制作的基于规则的代码可以快速解决大多数问题,因此ML被遗忘了。但是,利用当今的硬件(NVIDIA GPU,Google TPU等),您可以在数分钟内训练机器学习,知道最佳参数,并且可以获得更多数字数据。然后,在2010年之后,一个AI领域接连出现(视觉,语音,语言翻译,游戏等),它被ML所掌握,赢得了基于规则的AI,甚至还超过了人类。
为什么AI于1997年在国际象棋中击败人类,但直到2016年才在Go中:对于人类可以作为有限,定义明确的规则集掌握的问题,例如,在国际象棋中击败卡斯帕罗夫(当时的世界冠军),以旧的方式编写基于规则的代码就足够了(也是最好的)。在国际象棋中可能出现的下一打动作(带限制的8 x 8格)仅数十亿美元:在1997年,计算机变得足够快,足以探索足以击败人类的一系列可能动作的结果。但是在Go(19 x 19网格,免费)中,宇宙中的运动比原子更多:没有机器可以在十亿年内尝试所有这些运动。就像尝试使用所有随机字母组合来获得本文的结果一样,或者尝试随机绘制笔触直到获得毕加索:这永远不会发生。唯一已知的希望是在任务上训练机器学习。但是ML是近似值,而不是精确值,只能用于无法将其简化为“
只要您正确准备了要训练的数据,ML就会实现自动化。这与人工自动化不同,在人工自动化中,人们想出了使任务自动化的规则,例如,很多“如果是那么那个”描述了什么电子邮件可能是垃圾邮件,或者医学照片是否代表癌症或不。相反,在ML中,我们仅提供要解决的问题的数据样本:大量(数千个或更多)垃圾邮件,没有垃圾邮件,癌症,也没有癌症照片等,所有这些都首先由人类进行分类,修饰和标记。然后,ML自己神奇地找出(学习)规则,但没有解释这些规则。您显示一张猫的照片,ML表示这是猫,但没有说明原因。
(双向AI转换:从马到斑马,从斑马到马,夏天从/到冬天,照片从/到莫奈等。鸣谢:朱俊彦,Taesung Park等。)
大多数ML是 监督学习,其中训练示例与ML一起给出,每个示例都带有标签,说明或副本。首先,您需要一个人来将猫的照片与狗的照片分开,或将合法照片的垃圾邮件分开,等等。如果不正确地标记数据,则ML结果将是不正确的,这非常重要,这将在后面讨论。将未标记的数据扔给ML就是 无监督学习,其中ML发现数据上的模式和簇,这对探索很有用,但仅靠它不足以解决许多问题。一些机器学习是半监督的。
在“ 异常检测”中, 您可以识别与正常情况不同的异常事件,例如欺诈或网络入侵。机器学习仅接受过旧欺诈的培训,就会错过新的欺诈思想。然后,您可以教导正常活动,要求ML警告任何可疑的差异。政府已经依靠ML来发现逃税行为。
强化学习 在1983年的电影《战争游戏》中进行了展示,其中一台计算机决定不以光速播放每种情况,就发现一切都会造成世界破坏,从而决定不参加第三次世界大战。AI通过游戏或环境规则中的数百万次尝试和错误来发现,这些动作会产生最大的回报。AlphaGo的训练方式是这样的:它与自己进行了数百万次比赛,达到了超人的技能。它做出了令人惊讶的举动,人类从未将其视为错误,这是前所未有的。但是后来,这些被证明是出色的创新策略。 在Go游戏中,ML比人类更具 创造力。在扑克或其他带有隐藏卡的游戏中,ML也会学习虚张声势和欺骗:它是赢得胜利的最佳方法。
“人工智能效应”是当人们认为人工智能不是真正的智力时。人类在潜意识里需要相信自己在宇宙中具有神奇的精神和独特的作用。每当机器在新的智能方面胜过人类时,例如下棋,识别图像,翻译等,人们总是会说:“这只是蛮力计算,而不是智能”。许多应用程序中都包含许多AI,但是一旦广泛使用,就不再标记为“智能”。如果“智能”只是AI尚未完成的事情(大脑仍然独有),则字典应该每年更新一次,例如:“直到1950年代,它才被认为是智能,但是现在不再了,因为计算机可以做它”,这很奇怪。关于“强力”,人脑获得了100万亿个神经元连接,比地球上的任何计算机都要多。ML可以 ?做“蛮力”:尝试所有的结合将花费十亿年。ML使用比大脑更少的计算来进行“有根据的猜测”。因此,应该说“人脑”不是真正的智力,而只是蛮力计算,才是“较小”的AI。
ML不是人脑模拟器:真正的神经元有很大的不同。ML是获得类似于大脑的结果的另一种方式,类似于大脑就像马,也类似于汽车。重要的是,汽车和马匹都可以将您从A点运送到B点:汽车速度更快,消耗更多能量并且缺乏大多数马匹功能。大脑和ML都运行统计(概率)来近似复杂的功能:它们给出的结果只有一点点错误,但是可以使用。机器学习和大脑在同一任务上给出不同的结果,因为它们以不同的方式近似。每个人都知道,尽管大脑忘记了事情并且在做明确的数学运算时受到限制,但这些机器却是记忆力和数学运算的完美之选。但是,机器要么给出精确结果,要么被破坏的旧观念是错误的,过时的。人类犯了许多错误,但您听到的不是:“这个大脑坏了!”,而是:“学习更多!我们用我们的数据训练机器学习,仅模仿人类的工作,活动和大脑。但是,如果在其他星系中接受训练,同样的ML可能会模仿不同的(也许更好)外星人的大脑。让我们也尝试以外星人的方式思考。我们用我们的数据训练机器学习,仅模仿人类的工作,活动和大脑。但是,如果在其他星系中接受训练,同样的ML可能会模仿不同的(也许更好)外星人的大脑。让我们也尝试以外星人的方式思考。
人工智能正变得像人类一样神秘。计算机不能具有创造力,撒谎,错误或类似人类的想法来自于旧的基于规则的AI,这确实是可以预见的,但是随着ML的改变,这种想法似乎改变了。减少AI所掌握的每项新功能的弹药正在逐渐消失。剩下的真正问题是:一般AI与狭义AI。
(请忘记电影中看到的一般AI。但是“窄AI”也很聪明!)
与其他一些科学不同,您无法使用逻辑理论来验证ML是否正确。要判断某个ML是否正确,您只能在看不见的新数据上测试其结果(错误)。ML并不是一个黑匣子:您可以看到它生成并运行的“ if this then that”列表,但是对于任何人来说,它通常都太大而复杂。ML这是一门实践科学,它试图在不给出简单或理论解释的情况下重现现实世界的混乱和人类的直觉。它给人太大的理解线性代数产生的结果。就像当您有一个可行的想法时,却 无法确切解释如何提出该想法:对于称为灵感,直觉,潜意识的大脑,而在计算机中则称为ML。如果您可以获得导致人脑做出决定的神经元信号的完整列表,您能否理解大脑做出该决定的原因和方式?也许吧,但这很复杂。
每个人都可以凭直觉 和毕加索的风格直观地想象(甚至画画)一个人的脸。或想象(甚至播放)声音或音乐风格。但是没有人能够用完整而有效的公式描述面孔,声音或风格的变化。 人类最多只能可视化3个维度:即使是爱因斯坦,也无法在500个维度上有意识地设想类似于ML的数学。像魔术一样,这种500D数学一直被我们的大脑直觉解决。为什么不自觉解决?想象一下,如果对于每个想法,大脑也给了我们所使用的公式以及数千个变量。这些额外的信息会使我们迷惑并拖慢脚步,这又是什么呢?没有人可以使用长达数页的数学运算,我们的头上还没有USB电缆。
1