为什么数据标签对于视觉分析至关重要
机器学习依赖于标记的数据来训练算法以检测模式。在计算机视觉空间中,对这些算法进行了训练以检测对象,识别活动或执行分割。一个良好的,有代表性的,标记的数据集对于训练这种计算机视觉算法至关重要。在本文中,我们将说明我们在Optisol Data实验室中为项目执行的数据收集,手动标记,自动标记。
数据采集
数据收集是机器学习的重要方面。通常,将用于计算机视觉算法的数据收集为视频源或单个图像。当需要训练算法的数据是专有数据时,我们将依靠客户为我们提供具有代表性的训练数据集,以供我们标记和训练模型。如果可以从Google图像搜索或Kaggle之类的公开数据集中收集数据,我们将自行收集它们。但这说起来容易做起来难。
收集好的数据有很多障碍。在正确的位置可能没有足够的相机或其他传感器来收集我们需要训练的数据。可能存在环境因素,例如工厂车间和工作站的设置方式可能会遮挡摄像机的视线。在石化炼油领域以及火灾非常危险的其他地方,摄像机必须具有本质安全性。这种相机的购买非常昂贵。如果我们经常要收集自己的数据,那么就没有足够的代表性样本可以收集。由于这些及其他原因,客户或我们自己可能无法获取良好的数据集。在这种情况下,我们该怎么办?
我们已经开始使用3D建模和动画从一些参考图像中模拟环境。这样的模型使我们能够生成模型训练所需的庞大数据集,而无需进行昂贵且耗时的站点访问以及与远方客户的协调。
以下是我们的YouTube频道的链接,我们在其中上传了一些3D动画视频,这些视频是我们为模型训练的数据生成而创建的。
数据标签(手动)
收集完数据后,接下来的任务是标记数据。我们使用大量的数据标记软件来标记数据。LabelImg,LabelMe,VGG图像注释器和其中一些工具非常简单易用。我们可以在图像上绘制正方形或矩形之类的多边形,然后该工具将以允许我们训练模型的格式输出标签及其位置。
但是,还有其他标记要求,例如分段算法,这些技巧在生成标签时非常棘手且很费力。这些标签需要与我们正在训练模型的物体或线段的轮廓相匹配,以区分它们。因此,在大数据集上跟踪此类对象的轮廓是一项劳动密集型操作。有时我们无法避免。其他时候,我们尝试使用自动数据标记来帮助我们。这是我们为检测和细分为我们的海外客户所做的电线杆所做的标记示例
数据标记(自动)
在模型训练管道中,数据标记是一个重要的劳动密集型过程。为了实现这一点,我们采用了各种策略。最有效的方法是标记足够的数据以训练模型的第一次迭代。训练模型后,我们将其用作自动标记器。我们通过此模型运行更多数据,并使其检测要为其训练的对象。我们将审查模型输出并手动重新标记不正确的推论。
模型所犯的这些错误使我们了解到我们培训渠道中的某些结构性缺陷。这有助于我们相应地调整管道。来自模型和手动重新标记的策划输出将作为训练数据反馈,以训练模型的下一次迭代。我们将继续重复此过程,直到获得满足客户要求的模型。
随着模型的发展,需要手动重新标记的数据将越来越少。这也使我们可以在几天和几周的时间里完成标记过程,这有助于理顺我们项目的资源配置曲线

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!