全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
634 1
2022-08-12
10 年前,在以模型为中心的 AI 时代,像我们这样的 AI 窥视者在模型上苦苦挣扎。我们缺乏基础设施、工具、工具包或框架来帮助我们创建和训练 ML 模型。

今天,存在诸如 Tensorflow 和 PyTorch 之类的救生包。我们现在必须关注数据,从查找和排序到注释。

但这是值得的。在许多情况下,提高数据质量对其性能的影响比任何超参数或神经网络架构的调整都更显着。

在以数据为中心的 AI中,您只需要两件事:

质量数据,由干净多样的数据组成
足够的训练数据量。

更大并不总是更好

大量数据是许多深度学习成功的关键。但海量数据带来挑战:

在硬件和人力计算资源方面既麻烦又昂贵;
它带来了问题:偏见、技术债务以及与新基金会模型范式的兼容性。


模型偏差

如果您专注于标记生产力并过早地将预注释应用于文档,则会鼓励注释者将模型中的错误包含在数据中。

如果你想尽量减少偏见,没有免费的午餐。以下是如何进行:

如果您对任务有一些先验知识,请从基于规则的自动化开始。例如,正则表达式和字典对 NLP 很有用。
然后进行手动标记。这是您实际为模型创造价值的地方,因为您注释了由非平凡示例和边缘案例构成的困难部分。质量管理对于这一阶段至关重要,因为它需要贴标机之间的大量同步才能保持一致。
最后,模型预标记从一个好的数据集变成一个好的数据集。它应该只在最后使用;否则,您将产生偏见。

人工智能的信任是无价的

技术债

在软件开发中,代码量翻倍意味着许多事情翻倍:

我们的系统创建的行为数量
所需的单元测试数量。
对于 AI,代码 = 数据。数据量翻倍意味着翻倍:

我们的机器学习系统创建的行为数量
所需的 ML 单元测试的数量
否则技术债务。

与基础模型不兼容

今天,我们拥有已经对互联网上所有文本或图像进行预训练的巨型基础模型(GPT-3、BERT 或 DALL-E 2);他们了解语言规则。由于您的模型需要强大的泛化能力,因此它需要的数据非常少。因此,每一个数据都会产生更大的影响。因此,您需要对提供给模型的示例进行更少的注释并更加精确,因为不良数据很容易影响它们,而不是注释大量具有潜在错误的数据。

为什么获取高质量数据具有挑战性?

为了减少我们的机器学习模型所需的数据量,我们必须提高其质量。然而,这是具有挑战性的,因为我们必须同时解决这两个问题:

数据代表性(数据是否无偏?数据是否涵盖边缘情况?)
标注一致性(标注者是否以同样的方式标注?他们是否理解任务?)。
数据集不容易调试。给出是或否的答案并不总是那么容易。例如,在图像分类任务中,房屋窗户的图像是房屋的图像吗?

答案将取决于上下文、任务、用法等。这对于非专家任务是正确的。对于专家任务也是如此。

例如:

几十年来,类风湿性关节炎和疟疾一直在用氯喹治疗。-> 治疗氯喹和疟疾之间的关系。
在向诊所报告疟疾症状的 56 名受试者中,53 名 (95%) 的血液中氯喹含量正常。-> 不治疗氯喹和疟疾之间的关系。

如何大规模管理质量

在 Kili Technology,我们致力于与愿意管理质量和规模的用户分享最佳实践。

标签一致性

以下是一些提示:

以小步骤迭代注释。这是构建质量数据集的具体过程。
只是让你知道:每次迭代应该持续 3 天。
负责构建模型的工程师手动注释了 50 到 100 个示例,让您了解存在的不同类。
写出您希望模型识别的类的可靠定义和概念。这应该包括有关如何处理特定边缘情况的说明。
迭代地获取由外部合作伙伴或公司内其他人注释的大批量文档(一次 100 或 200 个)。
在任何步骤迭代调试:指令、本体、共识覆盖。
使用工具设计以避免设计错误的注释手势。
防止错误的注释。例如,在关系提取中,禁止 UX 中没有意义的关系。
最大限度地减少注释操作的数量和复杂性。例如,在某些任务上,最好先绘制对象,然后选择类,而在其他任务上,则相反。
培训您的员工:贴标需要适当的培训才能让贴标人员快速提升。
检测可能的错误。
从项目开始就实施基于规则的质量检查。例如,注释椎骨的数量不是大于人类椎骨的数量吗?
使用模型来计算标签的可能性,并在项目结束时确定审查的优先级。
使用指标(例如资产和注释者级别的共识)来调试您的标记过程并确定您的审查的优先级。
设置一个金字塔式的审查系统:预注释模型,然后是标注员,然后是审查员和 ML 工程师。

对人工智能的信任是无价的


数据代表性


这里有两个重点:

有无偏数据。
拥有足够丰富的数据。
我们的世界充满了需要从模型中消除的偏见。例如,如果我使用 GPT-2 的嵌入来构建金融新闻的情感分析模型,仅公司名称就已经带有一种情感:大众汽车是负面的,因为过去几年的丑闻,over-在 GPT-2 训练数据中表示。为了纠正这个问题,这里有一些想法:

在训练语言模型之前用占位符替换敏感的命名实体(公司);
生成反事实数据以平衡与公司名称相关的感受;
正交化嵌入空间以消除偏差效应。
我们的世界充满了边缘案例。例如,自动驾驶汽车图像中在高速公路上飞行的椅子。要构建多样化的数据集,您可以将 ML 中众所周知的提升方法重用于数据。从候选数据库中:

训练一个初始模型并在验证集上进行预测。
使用另一个预训练模型来提取嵌入。
对于每个错误分类的验证图像,使用嵌入检索最近的邻居。将这些最近邻图像添加到训练集中。
使用添加的图像重新训练模型并在验证集上进行预测。
重复,直到你很好。

结论

到目前为止,ML 社区一直关注数据量。现在,我们需要质量。还有许多其他技巧可以大规模获得这种质量。

      相关帖子DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-8-12 19:10:15
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群