全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
3323 0
2022-03-29
仅搜索文档已过时。已经在他们的个人设备上采用问答 (QA) 方法的用户,例如由 Alexa、Google Assistant、Siri 等提供支持的设备,也正在欣赏使用具有相同方法的“搜索引擎”的优势。业务环境。这样一来,他们不仅可以搜索文档,还可以获取特定问题的准确答案。QA 系统会回答人们可以用自然语言提出的问题。这项技术已经被广泛采用,现在在商业环境中迅速获得重要性,其中对话式人工智能平台最明显的附加价值是改善客户体验。

另一个关键的实际好处是通过降低呼叫中心成本和增加销售交易来提高运营效率。最近,我们看到人们对内部用例产生了浓厚的兴趣,例如,用于 IT 服务台和 HR 职能。如果您不必费力地筛选电子表格和文档来提取相关事实,而只需将您的问题输入到您可信赖的搜索字段中,该怎么办?

从用户的角度来看,这是最佳的,但将业务数据转换为知识并非易事。这是一个链接和提供所有相关数据的问题,以便所有员工(不仅仅是专家)都能在他们发现自己的任何业务流程中快速找到他们迫切需要的答案。

借助知识图谱的力量,可以有效地准备企业数据,以便将其映射到自然语言问题。这听起来像是魔术,但事实并非如此。它实际上是在众多行业中成功推出 QA 系统等 AI 应用程序的行之有效的方法。

当前的问答方法存在哪些不足?

语义知识图的使用支持一种改变游戏规则的方法来构建有效的 QA 引擎,尤其是在要构建特定领域的系统时。当前的 QA 技术基于意图检测,即传入的问题必须映射到一些预定义的意图。一个常见的例子是常见问题解答场景,其中传入的问题被映射到常见问题之一。这在某些情况下效果很好,但不太适合访问大型结构化数据集。这是因为在访问结构化数据时,需要识别特定领域的命名实体和关系。

在这些情况下,意图检测技术需要大量的训练数据并且难以提供令人满意的结果。我们正在利用基于语义解析的不同技术,即,将问题分解为其基本组成部分,例如实体、关系、类等,以推断出对问题的完整解释。然后使用此解释从知识图中检索答案。有什么优势?

您的 QA 引擎不需要特殊的配置文件——所有内容都在数据本身(即知识图谱)中进行编码。通过这样做,您可以自动提高数据的质量,从而为您的组织和使用这些数据的应用程序带来好处。
现代 QA 引擎经常在多语言环境中挣扎,因为它们通常针对单一语言进行优化。有了知识图谱,就可以用相对较少的努力建立对其他语言的扩展,因为概念和事物是在其核心而不是简单的术语和字符串中处理的。
这项技术是可扩展的,因此如果您的知识图中有 100 个实体或数百万个实体,它不会有任何影响。
最后,您无需在设置引擎之前创建大型训练数据语料库。数据本身就足够了,您可以随时微调系统,只需很少的额外训练数据!
在知识图谱上构建 QA 引擎:来自 HR 的示例

以下是使用典型人力资源 (HR) 用例作为运行示例的方法的分步概述。

第 1 步:收集数据集
在此步骤中,业务用户定义需求并确定企业知识的数据源。收集不同格式的结构化、半结构化和非结构化数据后,您将能够生成一个数据目录,作为企业知识图 (EKG) 的基础。

第 2 步:创建数据的语义模型在
这里,您的主题专家和业务分析师将定义语义对象并设计 EKG 的语义方案,这将产生一组精确描述您的领域的本体、分类法和词汇表.

第 3 步:语义化您的数据
创建管道以自动提取和语义化您的数据,即根据描述您的领域的语义模型从您的数据源中注释和提取知识。这是由数据工程师执行的,他们自动从结构化源中提取和规范化数据,并使用 NLP 工具自动分析非结构化内容,以便使用提供的语义模型填充 EKG。随着新数据的添加,由此产生的丰富 EKG 不断改进。此步骤的结果是您的心电图的初始版本。

第 4 步:协调和互连您的数据
在上一步之后,您的数据被表示为事物而不是字符串。每个对象都有一个唯一的 URI,用于建立实体和数据集之间的链接。这可以通过使用本体和词汇来促进,除了映射规则之外,它们还允许与外部资源相互链接。在这个阶段,数据工程师使用逻辑推理、图形分析或链接发现在 EKG 中建立新的关系——共同丰富和进一步扩展 EKG。此过程的结果是您的 EKG 的扩展,最终存储在图形数据库中,该数据库提供用于访问和查询数据的接口。

第 5 步:向 QA 系统提供数据
允许在 EKG 上提出问题要求 (a) 数据已编入索引,并且 (b) ML 模型可用于理解问题。这两个步骤在QAnswer中都是完全自动化的。EKG 数据会自动编入索引,并且已经提供了预训练的 ML 模型,因此您可以立即开始根据数据提出问题。

第 6 步:向 QA 系统提供反馈
提高答案的质量通过以下两个步骤(6 和 7)完成。业务用户和知识工程师负责一起调整系统。业务用户表达常见的用户请求,知识工程师检查系统是否返回预期的答案。根据结果​​,要么调整 EKG(按照步骤 2-4),要么重新训练系统以学习相应类型的问题。
用户可以通过说明答案是否正确或从建议的 SPARQL 查询列表中选择正确的查询来为提供的答案提供反馈:

第 7 步:训练 QA 系统
新的 ML 模型会根据第 6 步中提供的训练数据自动生成。系统会适应已放入 EKG 的数据类型以及对您的业务很重要的问题类型。提供的反馈改进了 ML 模型,以提高 QA 系统的准确性和所提供答案的可信度:

第 8 步:立即了解您的知识
借助触手可及的 HR 数据集,您可以提出以下问题:我的员工是谁?我的员工会说什么语言?谁知道Javascript?谁有项目负责人的经验?谁能用Java编程并了解MySQL?谁会说英文和中文?谁知道 Java 和 SPARQL?我的员工的工资范围是多少?有多少人可以用 Java 和 Javascript 编写代码?C++程序员的平均工资是多少?谁是薪酬最高的员工?


为了与您的 Excel 文件和多年来积累的其他不同数据进行对话,您需要从打破组织中的数据孤岛开始。虽然 EKG 将帮助您拆除数据孤岛,但 Semantic Data Fabric 解决方案允许您准备组织的数据以进行问答。这种方法结合了数据仓库和数据湖的优势,并用基于语义图技术的新组件和方法对其进行了补充。

通过结合 EKG 和 QA 技术,您的公司将打开许多大门,并且在我们的解决方案之上还可以构建一些允许组织快速直观地访问内部信息的特定领域应用程序。

我们解决的挑战之一是难以快速、直观和自信地访问内部信息。人们可以像通常用自然语言询问人类一样找到和收集有用的信息。我们在本文中介绍的技术功能远远超出了当今主流语音助手所能实现的功能。这一新方向为组织提供了一个重要的机会,可以简化人机交互并从改进的组织知识访问中获利,同时还为其客户提供新的、创新的和有用的服务。

问答系统的未来在于利用知识图使它们更智能。
编辑推荐
1、2022年300个以上最佳免费数据科学课程
2、大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、机器学习模型方法总结
4、历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、机器学习如何应用于商业场景?三个真实的商业项目
6、数据工作者的自我修养 | 哪些技能是必不可少的?
7、《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、文本挖掘常用的107个语料库
9、一图读懂“东数西算”工程
10、零基础转行数据分析,看这篇文章就够了

DA内容精选

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群