基于 Transformer 的预训练语言模型 (TPTLM) 是一个复杂且快速增长的 AI 领域,因此我推荐这篇论文作为理解和导航领域的好方法
我们可以从四个角度对 TPTLM 进行分类
预训练语料库
模型架构
SSL 的类型(自我监督学习)和
扩展
预训练基于语料库的模型
通用预训练:GPT-1、BERT 等模型在通用语料库上进行了预训练。例如,GPT-1
在书籍语料库上进行了预训练,而 BERT 和 UniLM 在英语维基百科和书籍语料库上进行了预训练。
这种形式的培训更普遍,来自多个信息源
基于社交媒体:您可以使用社交媒体对模型进行训练
基于语言:模型可以在单语或多语种语言上进行训练。
建筑学
TPTLM 可以根据其架构进行分类。T-PTLM 可以使用一堆编码器或解码器或两者进行预训练。
因此,您可以拥有基于
基于编码器
基于解码器
基于编码器-解码器
SSL