小数据集的稳健图像分类
关于AI的最大神话之一是,您需要拥有大量数据才能获得足够的准确性- 大数据分析的快速发展似乎证明了这种直觉。的确,深度学习方法需要对大量标记图像进行模型训练。但是,在图像分类中,如果使用新的
机器学习技术,即使少量的训练图像集也可以产生合理的准确率(90–100%),该技术要么利用先前收集的数据到相邻域,要么完全修改分类过程,在图像的相似性上。
知识交叉利用
与人类将一个领域中获得的知识应用于相关领域的能力类似,机器学习和
深度学习算法也可以利用为一项任务而获得的知识来解决相邻的问题。
即使传统上将ML / DL算法设计为独立工作以解决特定任务,但是知识转移和领域适应的方法仍旨在克服孤立的学习范式,从而开发出更接近人类学习方式的模型。
转移学习
转移学习是一种方法,可以从先前学习的任务中概括出包括特征和权重在内的知识,并将其应用于缺少数据的更新的相关任务。例如,在计算机视觉中,某些低级功能(例如边缘,形状,拐角和强度)可以在多个任务之间共享。
图像分类
要了解它是如何工作的,我们可以使用论文中介绍的框架,即迁移学习调查(Pan&Yang,2010年),其中他们使用领域,任务和边际概率:
域D由两个部分组成:特征空间X和边际概率分布P(x),其中x∈X。通常,如果两个域不同,则它们可能具有不同的特征空间或不同的边际概率分布。
同样,任务T由两个部分组成:标签空间Y和预测函数f(·),即从特征空间到标签空间的映射。从概率的角度来看,f(x)也可以写为条件分布P(y | x)。基于这些表示,可以将转移知识定义如下:给定源域Ds和学习任务Ts,目标域Dt和学习任务Tt,转移学习旨在帮助提高目标预测函数fT(·)的学习。 DT使用DS和TS中的知识,其中DS ≠ DT或TS ≠ TT,T = {Y,f(·)}。(Pan&Yang 2010)在大多数情况下,假定标记的目标示例的数量要比标记的源示例的数量小得多。
为了解释如何在现实生活中使用转移学习,让我们看一下从模拟学习的一种特殊应用。仿真是收集数据和训练模型而不是在现实世界中收集数据的首选工具。在从模拟中学习并将获得的知识应用于现实世界时,该模型在源域和目标域之间使用相同的特征空间(通常都依赖于像素)。但是,模拟和现实之间的边际概率分布是不同的,因此模拟中的对象和源看起来不同,尽管随着模拟变得更加现实,这种差异会逐渐减少。
进一步阅读
潘剑君,杨庆(2009)。迁移学习调查。IEEE知识和数据工程学报 22(10),1345–1359 [ PDF ]
领域适应
通常认为域转移是转移知识的一个子领域,它是指应对域转移挑战的方法:由于目标域中的数据分布与源域中的数据分布不同,并且边际概率之间存在相似的差距在源域和目标域之间(例如P(Xs)≠P(Xt)),需要设计可以应对这种转变的模型。
为了成功实现无监督域自适应,我们需要涵盖三个主要方面:
与领域无关的特征提取:从两个领域中提取的特征的分布应按照对抗性鉴别器网络的判断是无法区分的;
特定于域的重建:应将嵌入解码回源域和目标域;
周期一致性:为了确保正确学习映射,我们应该能够回到开始的地方。
无监督域适应最简单的方法是建立一个网络,以提取通过使他们不能区分的网络,的一个单独的部分留在整个域相同的特征鉴别。但同时,这些功能应代表源域,以便网络能够对对象进行分类。由于该方法不受监督,因此我们不必为目标域,源域以及在许多情况下的合成数据添加任何标签。
可选地,域自适应可以将源数据分布映射到目标分布。域X和Y都可以映射到分布对齐的共享域Z中。该嵌入必须是领域不可知的,因此我们希望最大化嵌入的源图像和目标图像之间的相似度。
进一步阅读
Murez,Zak和Kolouri,Soheil和Kriegman,David和Ramamoorthi,Ravi和Kim,庆南。(2017)。图像到图像的转换以进行域自适应。[ PDF ]
Pinheiro,Pedro HO(2018年)。具有相似性学习的无监督域自适应。IEEE / CVF计算机视觉和模式识别会议(2018):8004–8013。[ PDF ]
基于相似度的方法
将输入图像直接分类为任何输出类别的一种替代方法是通过学习相似度函数来测量图像之间的相似度。
快速学习
快速学习是计算机视觉中的一个对象分类问题。与其他基于ML的算法相反,“少拍学习”旨在从单个(所谓的“单拍学习”)或一些训练图像中学习有关对象类别的信息。除输入图像外,它还将特定对象的参考图像作为输入,并产生相似度分数,该相似度分数表示两个输入图像属于同一对象的机会。
一次性学习方法以其最简单的形式计算支持集标签的距离加权组合。可以使用连体网络定义距离度量,该连体网络使用两个相同的完全连接的CNN,它们具有相同的权重并接受两个不同的图像。然后,将两个网络的最后一层馈入一个对比损失函数,该函数计算两个图像之间的相似度。
第一网络输出要查询的图像的编码/向量,第二网络相应地输出数据集的参考图像的编码/向量。之后,比较这两种编码以检查图像之间是否存在相似性。通过使用三元组损失或对比损失函数,基于输出之间的损失对网络进行优化。
的三重态损耗函数用于计算梯度和被表示为如下:
式
其中a代表锚图像(或数据集中的参考图像),p代表正图像,n代表负图像。我们知道a和p之间的差异应小于a和n之间的差异。添加了另一个称为余量的变量作为超参数,以定义相异度应达到多远,即,如果余量= 0.2并且d(a,p)= 0.5,则d(a,n)至少应等于0.7。
在对比损失函数给出如下:
式
其中Dw 是姐妹连体网络输出之间的欧几里得距离。在数学上,欧几里得距离表示如下:
式
其中Gw是姐妹网络之一的输出。X1和X2是输入数据对
损失函数计算用于更新暹罗网络权重和偏差的梯度。如果图像相似,则损失将较小,而当图像相似时,损失将进一步分开。
该方法的发展可以在Santoro等人的方法中看到。(2016)使用记忆增强神经网络(MANN)。在他们的模型中,
神经网络扩展了外部存储模块,因此该模型具有可微分性,并且可以端到端进行训练。由于他们的培训程序,他们迫使网络学习常识,而快速的内存访问允许将常识快速绑定到新数据。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!