关于语义分割注释的误解

863

收藏 2022-08-16

语义分割是一个计算机视觉问题，需要将图像的相关元素放入同一类中。

语义分割涉及三个步骤：

分类：对图片中的某个物体进行识别和分类。

本地化：找到项目并在周围放置一个边界框。

分割：使用分割掩码对局部图片中的像素进行分组的过程。

语义分割有几种子类型，但它们都来自于从两个类别中选择一对参数：数据的维度和输出注释的粒度。

维度

数据源中的维数称为this。普通相机图片是 2D 对象的一个示例，因为它只有两个维度：高度和宽度。3D 数据是 2D 数据的变体，增加了“深度”分量。激光雷达和雷达扫描是两种传感器数据。当多个后续 3D 对象沿时间轴分层时，将创建通常称为电影的 4D 表示。

我们根据数据的维度利用不同形式的语义分割来创建分割掩码。在 2D 分割的情况下，使用以下两种方法之一：基于像素或基于多边形的着色。因为像素是这个模型中最小的原子成分，所以每个像素都被赋予一个注释类。这导致了基于点的 3D 分割，其中每个 3D 点都被标记。如果提供了足够的点，则可以从单个对象中提取分割网格。

粒度

结果注释的精度称为粒度。基于类和实例感知的分割是两种最常见的类型。第一个示例中特定类的分割掩码包含指示该类成员的所有区域。在第二种情况下，为所选类别的每个唯一项目构建一个不同的分割掩码，允许区分不同的实例（例如分离两辆不同的汽车）。

在机器学习中，哪种语义分割更有用？

为了充分利用语义分割，应该使用实例感知子类型。以下是这背后的一些原因。

格式适应性很强

通过对数据进行分段，您可以训练和试验各种机器学习模型，包括分类、检测和定位、图片创建、前景/背景分离、手写识别、内容更改等等。因此，它被应用于多个行业，包括自动驾驶、时尚、电影创作和后期制作、农业等。

无与伦比的精度

分割掩码是最准确的，因为它们只覆盖真实项目的位置。另一方面，边界框经常与邻近地区合并或连接。这是由于非刚性物体在其他非刚性物体之内或之上造成的。

一注二注

尽管分割掩码更精确，但边界框仍在许多程序中使用。幸运的是，总是可以使用分割掩码估计周围的边界框。这就是你覆盖所有基地的方式！

尽管有这些好处，但使用语义分割作为您选择的注释类型仍有很大的缺点。

第 1 部分是最困难的

1. 手工标注困难且耗时

手工制作语义掩码是一项耗时且艰巨的任务。当遇到不规则的形式或物品之间的边界无法立即辨别的位置时，贴标机必须准确地跟随每个物体的轮廓（见下图）。在没有专门工具的情况下注释单个帧很容易出错、不一致，并且可能需要 30 多分钟。

2. 完全自动化的方法无法提供高质量的结果

如果我们可以训练一个神经网络进行一次语义分割，然后无需做任何事情就拥有我们所有的注释，那不是很好吗？
其原因是我们对质量的看法与如何评估准确性之间存在偏差。项目的轮廓用于生成分割掩码，质量由正确检测到的区域的百分比决定。

3.修复错误需要很长时间

在上述每种方式中，错误可能代价高昂。校正一个不完美的分割掩码需要校正 N 个额外的掩码，其中 N 是相邻掩码的数量（我们稍后会回到这个问题）。调整遮罩所需的时间与从一开始就创建遮罩所需的时间一样长。因此，同样不可能对完全自动化的分割输出进行人工调整。防止此问题的唯一方法是使用受过充分教育的专业注释软件和贴标机。

4.语义分割标注成本

正如您可能已经看到的，分割蒙版创建需要使用特定的注释器、设备和自动化。这大大提高了价格，通常比注释基本边界框的成本高出几倍，并迅速耗尽预算。

相关帖子DA内容精选