全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1209 0
2020-11-06
结合CNN和RNN –疯狂还是天才?
有些事情似乎并没有在一起。以油和水为例。两者都很有价值,但是尝试将它们组合在一起吗?
那是我最初遇到结合CNN(卷积神经网络)和RNN(递归神经网络)的想法时的反应。毕竟,它们针对完全不同的问题类型进行了优化。
CNN擅长处理分层或空间数据并提取未标记的特征。这些可能是图像或书面字符。CNN采用固定大小的输入并生成固定大小的输出。
RNN擅长时间或顺序数据。可以是文本,股市数据或语音识别中的字母或单词。RNN可以输入和输出任意长度的数据。LSTM是RNN的变体,可以控制应记住或更适当地忘记多少先前的训练数据。
我们都知道可以根据这些非常独特的问题类型来找到合适的工具。
那么是否存在需要同时具备这两种工具能力的问题类型?
事实证明,是的。这些中的大多数很容易识别为按时间顺序出现的图像,即视频。但是还有其他一些与视频不直接相关的聪明应用程序可能会激发您的想象力。我们将在下面描述其中的几个。
关于如何组合这些工具,还有几种新兴模型。在大多数情况下,CNN和RNN已作为单独的图层结合在一起,而CNN的输出用作RNN的输入。但是,有些研究人员在单个深度神经网络中巧妙地将这两种功能结合在一起。
视频场景标签
场景标记的经典方法是训练CNN以识别和分类帧内的对象,并可能进一步将对象分类为更高级别的逻辑组。例如,CNN可以识别炉子,冰箱,水槽等,也可以将它们向上分类为厨房。
显然,缺少的元素是几帧(时间)内运动的含义。例如,一场台球游戏的几帧可能正确地说,射手将第8个球沉入侧袋。或者,一个年轻人学习骑两轮车的几个车架,然后在地面上骑车的车架,可以合理地概括为“男孩从自行车上摔下来”。
研究人员使用了分层的CNN-RNN对,其中CNN的输出被输入到RNN。从逻辑上讲,RNN也已替换为LSTM,以创建每个视频片段的更多“当下”描述。最后,使用组合式RCNN进行了一些实验,其中循环连接直接位于内核中,如上图所示。在这里查看更多。
情绪检测
从视频判断个人或个人群体的情感仍然是一个挑战。ACM国际多式联运国际会议每年都会举办一次竞赛,称为EmotiW大挑战。
每年,目标数据的性质都会有所变化,通常会有不同的测试来对视频中出现的人群和个人进行分类。
2016年:基于小组的幸福感强度。
2017年:基于小组的三类(正面/中性/负面)情绪检测。
2018年(计划于11月)更加复杂。挑战将涉及饮食条件的分类。共有三个子挑战:
食物类型的次要挑战:每说一次执行七类食物分类。
食物喜欢度子挑战:识别受试者的食物喜欢度等级。
咀嚼和说话子挑战:识别进食时说话的难度。
挑战的关键不仅在于CNN和RNN的结合,还包括可单独建模和集成的音轨。
2016年,获奖者创建了一个由RNN和3D卷积网络(C3D)组成的混合网络。传统上,数据融合和分类在过程的后期进行。RNN将CNN从各个帧中提取的外观特征作为输入,然后对运动进行编码,而C3D同时对视频的外观和运动进行建模,随后还将其与音频模块合并。
在这个非常困难的领域,准确性仍然不高。2016年获奖者个人面孔得分为59.02%。到2017年,个人面孔得分高达60.34%,团体得分高达80.89%-请记住,挑战的性质每年都在变化,因此无法进行逐年比较。更多关于这个年度挑战的信息。
基于视频的人员重新识别/步态识别
此处的目标是从视频中识别出一个人(从现有带标签的人的数据库中),或者只是识别该人是否曾经见过(重新识别-未加标签)。研究的主要领域是步态识别,而不断发展的领域则使用全身运动识别(手臂摆动,肢体弯曲,马车等)。
这里存在一些明显的非技术性挑战,最明显的是服装,鞋子的变化,外套或包装的部分不透明等。CNN中众所周知的技术问题是多个视点(实际上,一个人从右向左说出多个视点时,首先提供的是正面,侧面和背面),以及照明,反照率和尺寸的经典图像问题。
先前的工作是基于将代表一个完整步长(步态)的CNN衍生数据的几帧组合成一种称为步态能量图(GEI)的热图。
LSTM的添加允许一起分析多个“步骤”,并且LSTM的时间序列功能可以用作针对视角进行调整的帧到帧视图转换模型。
可以在此处找到包含图像的这项研究。毫无疑问,将步态识别应用到监视中,被引用的研究论文数量最多,几乎所有的研究都在中国进行。
下一个领域具有完整的人体姿势识别功能,无论是用于识别还是用于标记(人站立,跳跃,坐着等),每个身体部位都有单独的卷积模型。手势识别作为UI的一部分,尤其是在增强现实中,已成为一个热门话题。
天气预报
目的是预测局部区域和相当短的时间范围内的降雨强度。此字段称为“即时广播”。
定量DNA序列的功能
大约98%的人类DNA是非编码的,称为内含子。最初被认为是没有价值的进化遗留物,遗传学家现在知道例如93%的疾病相关变体位于这些区域。这些区域的特性和功能的建模是一个持续的挑战,最近通过CNN / LSTM组合DanQ使得建模变得更加容易。
根据开发人员的说法,“卷积层捕获规则主题,而循环层捕获主题之间的长期依赖性,以便学习规则“语法”以改善预测。DanQ在多个指标上与其他模型相比有很大改进。对于某些监管指标,与相关模型相比,DanQ在精确召回曲线指标下的面积可实现50%的相对改善。” 研究在这里。
为静音视频创建逼真的音轨
麻省理工学院的研究人员创建了广泛的带标签的鼓槌声音片段集合,这些片段几乎可以想到的一切都击中了。使用组合的CNN / LSTM,CNN可以识别视觉环境(鼓槌在无声视频中所击中的东西),但是由于声音片段是暂时的,并且跨越多个帧,因此LSTM层用于将声音片段匹配到适当的框架。
开发人员报告说,人类有超过50%的时间被预期的声音匹配所愚弄。在这里观看视频。
未来方向
我惊讶地发现如此众多的示例,其中研究人员将CNN和RNN结合起来以获得两者的优势。甚至有一些研究在混合网络中利用GAN很有意思。
但是,尽管这些混搭似乎提供了附加功能,但还有另一条更新的,也许是更突出的研究领域,即仅靠CNN就能胜任,而且RNN / LSTM的时代已经到来。
一组研究人员使用嵌入节点结构中的新型深林架构来胜过CNN和RNN,大大节省了计算量和复杂性。
我们还回顾了Facebook和Google的更为主流的运动,他们最近放弃了基于RNN / LSTM的语音到语音翻译工具,而使用了时间卷积网(TCN)。
特别是在文本问题中,但在任何时间序列问题中更普遍,RNN具有固有的设计问题。因为他们一次读取并解释一个单词(或字符或图像)的输入文本,所以深度神经网络必须等待处理下一个单词,直到当前的单词处理完成为止。
这意味着RNN无法像CNN一样利用大规模并行处理(MPP)。当RNN / LSTM同时运行两种方式以更好地理解上下文时,尤其如此。
这是一个不会消失的障碍,并且似乎对RNN / LSTM体系结构的实用性施加了绝对的限制。时空卷积神经网络通过使用CNN架构解决了这个问题,该架构可以轻松利用MPP加速以及新兴的注意力和门跳技术。有关更多详细信息,请参见我们的原始文章。
我当然不是要取消一整套研究工作的人,特别是在最小延迟要求不像语音到语音翻译那么严格的情况下。但是,上述所有这些问题对于使用这种较新的TCN方法进行重复检查似乎都已成熟。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群