在人工智能领域一直在进行的争论的变体:神经网络是否有可能进行符号操作(即算法)。早在 1960 年代和 1970 年代初期,答案很简单:制造神经网络所需的计算能力远高于当时可用的计算能力,因此这主要是一个有争议的问题。该算法将赢得胜利,因为神经编程几乎没有参加比赛。
然而,六十年后,情况发生了翻天覆地的变化。在某些领域,例如图像分类、自然语言处理和多维模拟(例如经济或天气建模),神经建模工具通常优于采用算法方法——更快、更准确,并且需要更少的人为干预。原因是机器学习使用经验,呈现为数据集,以确定那些最接近测试数据形状的模式(这里的形状同时描述了多个维度的表面)。
这样做的原因是分类最终是关于定义识别给定实体的形状,然后找到最有可能定义的形状。每个形状依次对应一个给定的标签——猫、狗、汽车、鞋子、儿童、成人。当然,这样做的问题是,您必须先标记每个已知形状,然后才能对其进行分类,至少对于最常见的机器学习类型(称为监督学习)而言是这样。你也可以让系统自己识别形状,然后在事后确定这些形状是什么,这就是无监督学习的一般工作方式,但有一个问题——并非所有找到的形状对人类都有意义,解释这些 ersatz 形状可以在最好的情况下使无监督学习变得复杂。
此类方法出现的另一个问题是,您本质上受制于您使用的源数据。如果您拥有的数据有偏差,那么您的模型就会有偏差,而现实情况是,您无法在不引入某种偏差的情况下在最好的时候挑选出有意义的样本。这一直是大多数随机方法的根本缺陷——它们对垃圾输入和垃圾输出高度敏感。
当您开始尝试识别数据中不同特征之间的关系时,事情变得更加复杂。任何体面的机器学习算法都可以很容易地得出一个事物是否在另一个事物内部,因为这种空间关系具有视觉成分。然而,能够识别其他关系——例如给定的孩子是否与给定的成年人相关(以及他们是如何相关的)——要确定这些信息是否不能转化为可量化的东西(例如 DNA 链)要困难得多)。因为我们知道(一些)遗传学,所以可以将两个人关联到相当高的程度,因为这可以表示为两个形状在某些方面相似的概率,
网络图论最终是关于网络中的多个事物如何相互关联,无论该网络是城市之间的道路地图、家谱、组织结构图还是类似的结构。在许多方面,它是网络的算法方面,不仅描述数据,还描述数据的形状。模式是此类形状的示例,本体和分类法也是如此。它们与神经网络的不同之处在于它们通常代表精心策划的关系。换句话说,这些形状是先验的或上下文的知识。许多机器学习纯粹主义者倾向于对这种网络图不屑一顾,主要是因为它们确实代表了“治愈”的知识(治愈、护理和管理都源自拉丁语 curae,意思是关注或麻烦),而不是隐含的神经知识,但这可能目光短浅。
大多数图神经网络使用特定的编码方法来描述特定的形状(主要关注图遍历),但这也在尝试规范化内容的过程中抛出了很多潜在的知识。相反,也许可以看到一种将两者结合起来的方法,即使用形状或图解语言(如 SHACL)来描述给定形状,给该形状一个标识符,然后创建描述不同形状之间关系的形状。如果您可以创建非常具体的形状,概括这些形状,然后对概括进行编码,那么您就拥有了一个非常强大的工具,可以将符号操作引入机器学习,而无需使用广泛(且昂贵)的模型或依赖于糟糕的(或不足)数据。