全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1101 0
2020-12-04
使用深林胜过CNN和RNN
简介:  基于决策树的深度学习技术如何胜过CNN和RNN,可以在普通桌面上运行,并且可以使用相对较小的数据集进行训练。这可能是人工智能的主要破坏者。
假设我告诉您,有一种算法可以在图像和文本分类中经常击败CNN和RNN的性能。
这仅需要训练数据的一小部分。
您可以在台式机CPU设备上运行而不需要GPU。
这样的训练速度非常快,在许多情况下甚至更快,并且很适合分布式处理。
它的超参数要少得多,并且在默认设置下表现良好。
并且依赖于易于理解的随机森林,而不是完全不透明的深层神经网络
南京大学新软件技术国家重点实验室的研究人员周志华和季峰刚刚宣布了一项研究。它叫做gcForest。
最先进的
这是“偏离常规”系列文章中的第一部分,该系列文章将重点介绍推进数据科学的方法,这些方法已脱离开发的主流。
人工智能在图像和文本分类中的主流显然是在深度神经网络(DNN)中,特别是卷积神经网络(CNN),递归神经网络(RNN)和长期/短期记忆网(LSTM)。原因很简单。这些是被证明可以有效解决这些无特征问题的第一种技术,我们非常高兴拥有可以使用的工具。
目前,成千上万的数据科学家正在重新技能,以能够操作这些DNN变体。云计算巨头纷纷涌入,因为要使其发挥作用需要极高的计算能力,这将依赖于其高性能专业GPM芯片的巨型云。数百个甚至数千个AI初创公司,更不用说已成立的公司,都在竞相将这些AI新功能商业化。为什么要这样?因为他们工作。
重要的是,不仅已证明它们可以在研究环境中工作,而且它们足够稳定以准备商业化。
但是不利之处是众所周知的。他们依赖于标记数据的超大型数据集,对于许多问题,这些数据可能在物理上或经济上都无法获得。他们需要在昂贵的GPU机器上进行非常长的培训。由于还有很多超参数还没有被完全理解,因此需要多次尝试才能使正确的训练时间变得更长。仍然确实,其中一些模型根本无法进行训练,从而损失了所有的时间和金钱投资。
结合这一估计,全球范围内可能只有22
人迹罕至的地方
在某种程度上,我们被DNN及其成功所迷住了。大多数规划和开发资本都在根据DNN的现状或在一两年之内将对其进行逐步改进的地方投入AI解决方案。
但是就像5到7年前没有成功或实用的DNN一样,也没有什么可以说前进的道路取决于当前的技术。数据科学的历史上充斥着破坏性的方法和技术。没有理由相信那些事情不会继续发生。gcForest可能就是这样的破坏者。
gcForest概念
gcForest(多谷物级联森林)是一种决策树集成方法,其中保留了深层网络的级联结构,但是不透明的边缘和节点神经元被随机森林与完全随机的树木林配对的组所代替。在这种情况下,通常每个级联层中各有两个,总共四个。
图像和文本问题被归类为“特征学习”或“表示学习”问题,这些特征既没有像传统的ML问题那样也没有预先定义或设计。这些特征发现问题的基本规则是深入研究,使用多层,每层都学习数据的相关特征以对其进行分类。因此,保留了对DNN非常熟悉的多层结构。
本文中的所有图像和参考文献均来自原始研究报告,可在此处找到。
图1:级联森林结构示意图。假设级联的每个级别都由两个随机森林(黑色)和两个完全随机的树木森林(蓝色)组成。假设有三类可以预测;因此,每个森林将输出一个三维分类矢量,然后将其连接起来以重新表示原始输入。
通过同时使用随机森林和完全随机树森林,作者获得了多样性的优势。每个森林包含500棵完全随机的树,允许它们分裂,直到每个叶节点仅包含同一类实例,从而使生长具有自限性和自适应性,这与DNN所需的固定深度和大深度不同。
估计的类别分布形成类别向量,然后将其与原始特征向量连接起来,作为下一级级联的输入。与CNN相似。
最终模型是级联森林的级联。通过汇总类向量并选择具有最高最大分数的类来获得最终预测。
多谷物特征
多粒度功能是指使用滑动窗口扫描原始功能。组合多个大小的滑动窗口(改变纹理)成为可以改善性能的超参数。
图4:gcForest的总体过程。假设有三类可以预测,原始特征为400-dim,并且使用了三种尺寸的滑动窗口。
替换CNN和RNN
另外,gcForest可以与序列数据或图像样式数据一起很好地工作。
图3:使用滑动窗口扫描的特征重新表示示意图。假设有三类,原始要素为400像素,滑动窗口为100像素。
报告的准确性
为了实现准确的比较,作者将两种方法之间的许多变量保持不变,并且可能需要进行更多调整才能改善性能。这只是几个不同标准参考集上报告的一些性能结果。
图像分类: MNIST数据集[LeCun et al。,1998]包含60
人脸识别: ORL数据集[Samaria and Harter,1994]包含从40个人处拍摄的400张灰度面部图像。我们将其与一个CNN进行比较,该CNN包含2个conv层以及32个3×3内核的特征图,每个conv层都有一个2×2 maxpooling层。我们每人随机选择5/7/9张图像进行训练,并在其余图像上报告测试性能。
手势识别:   sEMG数据集[Sapsanis等,2013]由1
作者展示了各种其他测试结果。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群