全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
959 0
2020-09-11
我们在3D模式中看到–我们的CNN模型也应该如此
简介:  当图像分类从2D变为3D时,需要准确感知周围世界的自动驾驶汽车(AUV)和许多其他系统将会变得更好。在这里,我们研究了3D分类的两种主要方法,即点云和体素网格。
CNN图像分类中的一个众所周知的问题是,由于CNN分类器只能看到物体的2D图像,因此如果旋转该物体,它将无法识别该物体。迄今为止,解决方案是在同一对象的许多不同正交视图上进行训练,这极大地扩展了训练数据和训练时间的问题。
在AUV世界中,同时定位和地图绘制(SLAM)是技术术语,用于指示车辆如何保持其周围环境(静态(交通信号灯)和移动(其他汽车和行人))的意识。如果汽车可以在3D空间而不是一系列2D快照中进行可视化显示,那么性能将大大提高。
传感器已经以3D形式呈现
AUV上用于动态感知的两个主要传感器是激光雷达和RGB-D摄像机。RGB-D(也称为深度相机)不仅捕获2D RGB数据,而且还基于“飞行时间”(实际上是光子到达传感器所花费的时间)捕获深度。几年前,这是非常昂贵和复杂的,但是传感器技术使其合理地将其应用于许多设备上。想想2010年的Microsoft Kinect。
因此,通过在汽车上放置两个RGB-D摄像机,您已经引入了立体视觉和捕获汽车周围所有对象的完整3D数据集的功能。
但奇怪的是,到目前为止,仅使用我们现有的2D CNN算法分析了来自LIDAR和RGB-D摄像机的3D数据。基本上,我们一直在丢弃所有有价值的3D数据。
存储数据进行分析
深度学习终于赶上了3D CNN的技术。这些技术相对较新,但是正在迅速走向商业化。
从根本上讲,有两种存储3D图像数据以进行3D CNN图像分类的方法。
点云(a)只是空间中3D点的集合,可能是从我们AUV上快速旋转的LIDAR光束中收集的。它们在空间中具有“ xyz”地址,还可以捕获“ rgb”数据以更好地区分对象。此数据被“按像素”转换为点云以进行处理。
体素网格(b)是像素的3D版本(“体积”和“像素”的混合)。在我们的2D CNN世界中,我们仅分析一个像素的“切片”。在体素世界中,有许多不同的2D切片加起来就是完整的3D对象。分辨率取决于像素的大小以及“切片”的深度。
点云在字面上可以是空间中无限数量的点,其坐标相对于体素网格“浮动”,其中每个体素在预定空间内具有离散坐标。
根据定义,点云是无序的,而Voxel网格是有序的数据。
两种版本似乎都具有相同的计算障碍。给定2D CNN分类的常用256 x 256图像大小,似乎拍摄3D图层将需要256 ^ 3像素,并且这会带来非常高的计算和内存成本。实际上,通过实验,32 ^ 3或64 ^ 3的3D体素产生的精度与较大的2D图像相似。64 ^ 3图像与512 ^ 2图像具有基本相同的要求。
性能比较
越来越多的开源培训数据库为研究提供了越来越多的帮助。值得注意的是:
MODELNET10:10个类别,4
MODELNET40:40个类别,12
SHAPENET CORE V2:55个类别,51
到目前为止,领先的模型包是:
对于基于点的:PointNet和PointNet ++
对于基于Voxel的:Voxel ResNet和Voxel CNN
尽管这两个方面的研究都在继续进行,但是Nvdia发表的一项最新研究比较了传统的,基于点的和基于体素的系统,这表明采用了Voxel方法。
可以使用点云数据,但与Voxel方法相比,其准确性较低,并且计算成本较高。
体素化收敛速度更快,使其更适合实时对象分类,并且更加精确。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群