基础模型在广泛的数据集上进行大规模训练,并适用于广泛的下游任务。在本博客中,我们扩展了该讨论以了解自我监督学习,这是支撑基础模型的技术之一。
由于基于 Transformer 的预训练语言模型 (T-PTLM),NLP 已经起飞。GPT 和 BERT 等基于 Transformer 的模型基于 Transformer、自监督学习和迁移学习。本质上,这些模型使用自监督学习从大量文本数据中构建通用语言表示,然后将这些知识转移到后续任务中。这意味着您不需要从头开始训练下游(后续)模型。
在监督学习中,从头开始训练模型需要许多标记实例,这些实例的生成成本很高。已经使用了各种策略来克服这个问题。我们可以使用迁移学习在一个上下文中学习并将其应用于相关上下文。在这种情况下,目标任务应该与源任务相似。迁移学习允许重用在源任务中学到的知识,以便在目标任务中表现良好。这里的目标任务应该与源任务相似。迁移学习的想法起源于计算机视觉,其中大型预训练 CNN 模型通过在预训练模型之上包含一些特定于任务的层来适应下游任务,这些层在目标数据集上进行微调。
另一个问题是:像 CNN 和 RNN 这样的
深度学习模型无法轻松地对长期上下文进行建模。为了克服这个问题,提出了变压器的想法。Transformers 包含一堆编码器和解码器,它们可以学习复杂的序列。
基于 Transformer 的预训练语言模型 (T-PTLM) 的想法是通过在 NLP 研究社区中结合 Transformer 和自监督学习 (SSL) 而发展起来的。自监督学习允许变压器基于一个或多个预训练任务提供的伪监督进行学习。GPT 和 BERT 是使用这种方法开发的第一个 T-PTLM。SSL 不需要大量人工标记的数据,因为它们可以从预先训练的数据中学习。
因此,自监督学习(SSL)是一种新的学习范式,它帮助模型基于预训练任务提供的伪监督进行学习。SSL 可在机器人、语音和计算机视觉等领域找到应用。
SSL 类似于无监督学习和监督学习,但又不同于两者。SSL 类似于无监督学习,因为它不需要人工标记的实例。但是,SSL 需要通过预训练阶段进行监督(如监督学习)。
相关帖子DA内容精选
- 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
|