全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
3436 0
2022-03-28
在过去的两年里,我们 Inscripta AI一直在与希望将 NLP/AI 集成到他们的工作流程和解决方案中的组织合作(“快速跟踪 AI 集成”是我们的使命!)。本文简要总结了我们对客户对 NLP 最新发展的一些常见误解的观察,尤其是对大型模型和数据集的使用。因此,这些要点主要与 AI 集成处于早期阶段的业务环境相关,而不是与研究项目或它是解决方案的成熟组件的情况相关。我们认为,更好地了解这些问题可以显着提高企业中成功实施人工智能的机会,无论是内部执行还是外包。




BERT 不是你所需要的全部
通过深度学习和变压器革命(BERT、GPT 等),现成的模型比大约 5 年前要好得多。因此,企业生存能力的门槛更容易被打破。尽管如此,根据我们的经验,这些模型几乎总是可以针对特定的业务问题得到显着改进(Jiang 等人的道德 NLP 论文中最近的一个例子。)。客户经常问我们是否有 BERT 解决方案(十年前,它曾经是统计模型或贝叶斯模型),以及我们是否可以快速尝试解决他们的问题:“BERT 可以解决这个问题吗?是还是不是?”。不幸的是,这有时会导致过早的“否”,而答案很可能是“是”,而这需要几周的努力。BERT 本身并不是灵丹妙药,Transformer 也不是竞争优势。此外,在没有适当保护措施的情况下部署此类模型甚至可能导致灾难性后果,例如当基于 GPT-3 的聊天机器人告诉模拟患者自杀时,Yann LeCun 评论 说:“人们对大规模GPT-3 等语言模型可以做到”。值得关注。


来自医疗聊天机器人的改变生活的建议(演示)!

原始度量不是永恒的度量
大型预建模型的迁移学习和交叉应用可加快系统开发和部署速度。但是,基础模型通常在与目标应用程序略有不同的任务上进行训练,从而导致准确性较低。例如, 最近的研究 表明通常用于分类的大型 NLI 模型依赖于虚假模式,这可能会阻碍实际性能。我们遇到的另一个常见场景是,业务工作流程需要在提取或搜索任务中以尽可能高的精度实现接近 100% 的召回率,反之亦然,并且现成的模型根据不同的指标进行调整(例如,F1 ),再次导致较差的任务性能。领域专家和 NLP 专家应该在项目的早期一起工作,开发适合手头任务的指标。

更多数据既不好也不坏,但策展使之如此
训练数据的增量值是不确定的。随意和不加批判地收集和注释大量数据(从互联网上“照它来”),或者只是收集历史数据和可能不相关的数据,有时可能会产生合格的结果。 尽管如此,对所收集数据的任务适用性和计划注释的有效性的敏锐观察 对于避免无用的数据收集至关重要。在一个例子中,我们发现一个表现不佳的帮助台聊天机器人将来自电影脚本和 Ubuntu 对话数据集的任意对话数据作为其训练数据的一部分(我们怀疑这个聊天机器人“坦率地说,并没有在乎”用户问题)。从群众中学习产生的其他问题  包括:NLP 算法学习,充其量是无用的,但可能令人讨厌的对话语音。另一个问题可能是 推荐中的偏见 ,这可能最终对受偏见影响的个人产生有害(甚至改变生活)的影响。考虑到规模效应的可能性,这可能会影响整个子社区,几乎没有或根本没有追索权。


即使在尖端模型中也不可避免的错误/偏差在业务应用程序中可能是不可接受的

对技术的无休止的修补会产生糟糕的回报
尝试不同的数据、调整业务工作流程或探索可行的业务解决方案空间(使用一些工作得相当好的技术)通常比花太多时间在所使用的基本技术或模型上更有效。股票市场预测研究最近的一个例子  表明,重新思考数据和流程是如何有效的。讽刺但大部分是真实的:一旦制定了问题并建立了基准数据,工作流程和数据在技术试验时保持不变(例如,大多数研究工作),而在 NLP/AI 试点或集成开始时,它将技术视为固定的,将数据/流程视为可变的很有用(听 Andrew Ng 关于从以模型为中心向以数据为中心的 AI 转变的观点)。重新构想业务流程需要在说服利益相关者方面付出更大的努力,但通常比 采用即插即用的 AI 集成方法更具变革性。

所有的 NLP 和没有领域的专业知识都只是一个玩具
数据科学和数据科学家的发展基于这样一种认识,即良好的业务解决方案源于交织的领域和技术专长。在实践 中,这很少能实现,尤其是在 NLP/AI 集成项目的早期阶段。因此,简单地将问题交给技术团队并等待在项目结束时进行评估,很可能是失败的秘诀,或者是通向可能不会创造竞争优势的通用解决方案的途径。领域理解 先于技术选择、数据来源和评估指标。我们发现,在每个阶段都结合商业判断是我们在复杂项目中取得成功的关键。尽管现代 NLP 工具具有令人印象深刻的现成性能,但不应忽视该领域深度学习的重要性。


过早的数据驱动是一切的根源……嗯,有时会适得其反
如今,大多数人都在追随数据驱动的潮流,不被数据驱动的风险是众所周知的。另一方面,过分热心的数据驱动是一种无声的威胁。当不清楚可用的测试数据是否足以进行可靠评估时,我们经常被要求在一开始就估计我们的基线模型的准确性。例如,我们曾经被要求在测试数据上测量情感分类器的准确性,其中注释者的分歧结果超过 20%。重要的是要了解创建有效的基准数据 是一项艰巨的工作。使用劣质数据进行数据驱动并不是一个好主意。

简单不会受到惩罚
将现有的深度(监督)学习模型移植和推广到 实际部署中充满了问题。尽管将深度学习与强化学习、 逻辑推理、 因果关系等相结合的努力越来越多,但在当今的大多数商业环境中, 采用 多步推理、跨组件检查、偏差校正等业务逻辑的某些传统技术,结合深度学习模型用于核心预测任务。此外,对于从机器学习的角度来看“简单”的组件,或者在开发的早期阶段,使用更简单(最好是可解释的)模型和启发式方法可能会有所帮助,这些模型和启发式方法可以在后期替换为更复杂和更强大的如果权衡是有意义的,则使用黑盒模型。

编辑推荐
1、2022年300个以上最佳免费数据科学课程
2、大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、机器学习模型方法总结
4、历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、机器学习如何应用于商业场景?三个真实的商业项目
6、数据工作者的自我修养 | 哪些技能是必不可少的?
7、《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、文本挖掘常用的107个语料库
9、一图读懂“东数西算”工程
10、零基础转行数据分析,看这篇文章就够了

DA内容精选

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群