语义和机器学习融合的地方

2237

收藏 2022-04-26

人工智能在两个有点矛盾的两极之间摇摆的历史由来已久。一方面，以诺姆·乔姆斯基、马文·明斯基、西摩·帕普特和其他许多人为例，认为认知智能本质上是算法——有一套基本规则构成了语言的基础，进而形成了智能. 另一边是 Donald Hebb、Frank Rosenblatt、Wesley Clarke、Henry Kelly、Arthur Bryson, Jr. 等人，他们中的大多数人甚至不那么出名，他们随着时间的推移发展了梯度下降、遗传算法、反向传播等。被称为神经网络的部分。

两个阵营之间的竞争非常激烈，在 Minsky 和 Papert 对第一个神经模型之一 Rosenblatt 的感知器进行了相当可恶的分析之后，有一段时间似乎争论已经在算法方法的方向上基本解决了。事后看来，双方面临的主要障碍（以及一个将使人工智能研究陷入深冬十多年的障碍）是，双方都低估了其中一种模型需要多少计算能力才能真正开花结果，而计算机和网络还需要再过 50 年（计算因子增加 21 个数量级，大约 1 万亿倍），才能使这些技术中的任何一种技术都可行。

事实证明，双方实际上在某些方面是对的，在另一些方面是错的。神经网络（和机器学习）在处理 1964 年被视为核心的许多问题方面变得非常有效：图像识别、自动分类、自然语言处理和系统建模等领域。特别是分类能力是向前迈出的关键一步，特别是考虑到从中受益的大量内容（从 Twitter 帖子到电影）。

然而，与此同时，在当前关于机器学习的辩论中，Minsky 和 Papert 关于感知器的论点也有呼应——可发现性和可验证性都被证明是非常难以解决的问题。如果无法确定给定解决方案为何正确，则意味着存在未正确建模的重要隐藏变量，并且不知道这些变量的限制——你有不连续性和奇异性的地方，使当应用于除自己的训练数据之外的任何内容时，该模型的问题要严重得多。

此外，您将开发逻辑（有时是社会）结构中的人为干预问题替换为查找和管理大量数据的时间和人员密集型操作，可以说后一种操作实际上只是一个前者的伪装（并且可以说效率较低）的版本。

另一方面，事物的算法方面并不一定表现得那么好。事实上，算法方法有两个方面——分析和语义。这种分析方法目前可以被定义为数据科学，它涉及使用统计分析（或随机）来确定分布和概率。可以说，随机指标的优势在于它可以用于确定，对于足够大的数据集，可以将特定事件发生的可能性确定在一定的误差范围内。然而，随机指标正在从传统的统计分析转向使用贝叶斯网络，其中可以通过图形分析来分析单个变量（特征）。

另一方面，语义是利用连接断言的网络图，以及对断言本身进行附加断言（通过建模）的能力，这一过程称为具体化。语义很适合更传统的建模方法，正是因为传统（关系）建模是语义模型的封闭子集，同时提供了文档对象建模语言 (DOM) 中固有的功能，例如 XML或 JSON。

重要的是，贝叶斯网络可以呈现为具有具体化的语义图，决策树也可以。事实上，SPARQL 查询在所有重要的方面都与决策树同构，因为决策树中的每个节点本质上是基于特定模式或约束存在的两个数据集的交集（提示：您想要构建合规性测试系统？使用 SPARQL！）。

软件的历史既充满了纯粹主义者，也充满了实用主义者。纯粹主义者在他们自己的特定工具和语言集方面投入了赌注：C++ 与 Java、命令式与声明式、SQL 与 NoSQL、Perl 与...... 实用主义者通常试图找到一个中间立场，在他们能做到的地方挑选最好的，当他们做不到的时候，就对宗教战争的所有喧嚣和喧嚣捂住耳朵。大多数纯粹主义者多年来最终成为实用主义者，但由于大多数程序员多年来倾向于成为程序管理人员，因此这种学习的实际影响微乎其微。

目前，由于这三个领域的化身——神经网络、贝叶斯和语义学——都是相对较新的，所以有一种强烈的趋势是希望将自己选择的工具视为所有潜在情况的最佳工具。然而，我认为这些最终都是图表或使用图表的工具，我相信正是这种潜在的共性将导致更广泛的统一。例如，

机器学习管道是一个分类器。如果中间的分类器的标签对应于给定的本体，那么一旦给定的实体被分类，该实体的语义表示就可以分配给相关的模式、形状、类或规则。
机器学习系统不是索引，但正如我的孩子所说，它是与索引相邻的（多么类似于图形的短语）。本质上，您所做的是在未知类型的实例与其关联的类之间创建映射。复数术语在这里很重要，因为类不是一个东西，它只是一个标记的模式，而继承又是两个这样的模式之间的共同特征的识别。此映射有时也称为反向查询，因为您实际上不是检索满足查询的所有项目，而是检索查询用于这些项目之一的（命名）模式。
在 SPARQL 中创建分类器是可能的（并且相对简单，老实说）。这是因为 SPARQL 本质上是在寻找三重模式的存在，不仅仅是在属性存在方面，而是在通常的二级和三级关系方面。SHACL 是一种 RDF 示意图语言，可以被认为是一种基于特定 SHACL 构造（以及其他东西）生成 SPARQL 的工具，并且这些模式可能非常微妙。
以类似的方式，我相信与关系数据分析相比，图分析最终会变得（甚至更重要），主要是因为图可以更容易地为任何类型的随机过程添加多层抽象和可发现性，解决当今机器学习工具所面临的许多相同问题。
这个过程的逆过程也是可行的。SPARQL 可以与传入流一起使用，以创建用于为机器语言服务构建训练数据的图形。由于此类训练数据已经在现有本体的上下文中进行了标记和识别，因此此类过程的好处是生成的分类器已经具有可解释性所需的所有部分——数据来源和注释、已建立的标识符、事件时间戳和更多的。
另一点很重要——SPARQL 能够改变它使用的图形。一旦您合并了允许在 SPARQL 调用本身中直接处理外部内容的服务调用，推理（其中基于现有断言中发现的模式创建新断言）就变得尤为重要。SPARQL 的下一个主要发展点之一将是它能够检索、操作和生成 JSON 作为中间核心对象（软件供应商，请注意）或作为 RDF 的源。
这意味着 SPARQL 的未来版本不再需要将表格数据存储为 RDF，而是可以将其存储为 JSON，然后利用该 JSON（和相关的分析函数）来创建更复杂的推理，同时占用更小的处理空间。对于类似的操作，看看 XProc XML 管道处理语言，然后意识到 XSLT/XQuery 管道和 RDF/SPARQL/SHACL 管道之间的差异大多是肤浅的。
最后一点非常非常重要，因为正如敏捷 / DevOPS / MLOps 模型的最新迭代所示，管道和转换是未来。通过能够处理链式转换（尤其是那些转换中的特定管道是基于上下文而不是预先设置的），这些管道开始看起来越来越像有机认知过程。

相关帖子DA内容精选

2022年300个以上最佳免费数据科学课

大厂数据分析面试指南！来自亚马逊、谷歌、微软、头条、美团的面试问题！

机器学习模型方法总结

历史最全机器学习/深度学习/人工智能专业术语表中英对照表

机器学习如何应用于商业场景？三个真实的商业项目

数据工作者的自我修养 | 哪些技能是必不可少的？

《汗牛充栋：数据分析书籍分享》CDA网校新课上线

文本挖掘常用的107个语料库

一图读懂“东数西算”工程

零基础转行数据分析，看这篇文章就够了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群