全部版块 我的主页
论坛 数据科学与人工智能 人工智能 CAIE人工智能工程师认证
91 0
2025-07-28

PART3人工智能当前主要技术的工作原理(10%)【熟知】

3.1 Transformer架构

Transformer架构是现代自然语言处理领域的基础模型结构,其核心在于自注意力机制(Self-Attention)。该机制允许模型在处理序列数据时,计算每个位置与其他所有位置的关联权重,从而捕获全局依赖关系。自注意力机制就好比团队里的翻译们在翻译句子时,会同时考虑整个句子里每个词与其他所有词的关联,比如翻译 我喜欢苹果喜欢这个词的翻译会参考 苹果,通过计算每个位置与其他所有位置的关联权重,从而捕获全局依赖关系,保证翻译准确。

就像团队里的翻译们如果不知道词在句子里的先后顺序,翻译就会混乱,由于自注意力机制本身不具备对序列位置信息的感知能力,Transformer引入了位置编码(PositionalEncoding)机制,通过为每个位置赋予唯一的编码向量,将位置信息融入输入序列中,使模型能够建模序列的位置关系,区分不同位置的语义关联。

Transformer由编码器(Encoder)和解码器(Decoder)两部分组成。编码器负责将输入序列转换为连续的特征表示,每个编码器层包含自注意力子层和前馈神经网络子层;解码器用于生成输出序列,除了编码器中的结构外,还包含掩码自注意力子层和编码器-解码器注意力子层。

图片1.png

3.2混合专家模型(MOE

混合专家模型的核心思想是将复杂的任务分解为多个专家模块的组合,每个专家负责处理任务的一个子部分。模型通过门控机制(GatingMechanism)为每个输入样本动态选择合适的专家进行处理,从而在保证模型表达能力的同时,控制计算复杂度。其关键在于仅激活与当前输入最相关的部分专家子网络,而其他专家不参与计算。

MOE模型包含多个专家网络和一个门控网络。门控网络根据输入数据计算每个专家的权重,权重之和为1,权重越大表示该专家对当前输入的贡献越大。只有被选中的专家会参与计算,未被选中的专家不参与前向传播和反向更新。这种结构使得MOE模型能够在参数量巨大的情况下保持高效训练和推理,例如SwitchTransformers等模型通过MOE机制实现了千亿级参数规模,但每次计算仅涉及少量专家,显著减少了实际计算量,同时保持了较好的性能。


3.3 Embedding

Embedding是将离散对象(如单词、物品等)映射为连续稠密向量的过程,其目的是在低维空间中表示对象的语义或特征。在人工智能领域,Embedding技术广泛应用于自然语言处理、推荐系统等场景。

以词嵌入(WordEmbedding)为例,早期的One-Hot编码存在维度高、语义无关等问题,而Word2VecGloVe等模型通过训练可以生成具有语义信息的词向量。例如,国王王后的词向量之差与男人女人的词向量之差在空间中接近,体现了词语之间的语义关系。

图片2.png

除了词嵌入,还有句嵌入(SentenceEmbedding)、图像嵌入(ImageEmbedding)等。在多模态任务中,不同模态的Embedding需要映射到同一语义空间,以便进行跨模态的信息融合和检索。


3.4生成对抗网络(GAN

生成对抗网络由生成器(Generator)和判别器(Discriminator)两部分组成,通过两者的对抗训练来提高生成器的生成能力。其核心思想源于博弈论中的零和博弈。

生成器的目标是生成尽可能逼真的样本,以欺骗判别器;判别器的目标是准确区分真实样本和生成样本。在训练过程中,生成器和判别器交替优化:生成器根据判别器的反馈调整参数,生成更逼真的样本;判别器则根据新的生成样本提高判别能力。

GAN在图像生成领域取得了显著成果,如DCGANStyleGAN等模型能够生成高分辨率、逼真的图像;也被应用于风格迁移(如将照片转换为艺术风格)、图像超分辨率(提升低清图像的分辨率)、图像修复等任务。此外,GAN还应用于视频生成、文本到图像生成等场景。


3.5扩散模型(DiffusionModel

扩散模型基于物理中的扩散过程,通过逐步添加噪声将数据转换为噪声分布,然后再通过逆向过程逐步去噪,从而生成新的数据样本。

扩散模型的训练过程分为前向扩散和反向去噪两个阶段。在前向扩散阶段,模型按照一定的时间表逐步向数据中添加高斯噪声,直到数据完全变成噪声;在反向去噪阶段,模型学习从噪声中恢复出原始数据,通过迭代预测并去除噪声,最终生成样本。

GAN相比,扩散模型生成的样本质量更高,多样性更好,在图像生成、语音合成等领域表现出强大的能力。


3.6多模态(Multimodal

多模态技术旨在处理包含多种类型数据(如图像、文本、语音等)的任务,通过融合不同模态的信息来获得更全面的理解和更强大的功能。

多模态模型的关键在于如何有效地融合不同模态的特征。常见的融合方式包括早期融合(EarlyFusion)、晚期融合(LateFusion)和混合融合(HybridFusion)。早期融合在特征提取阶段就将不同模态的数据进行融合;晚期融合则在各模态独立处理后再进行决策层面的融合;混合融合结合了两者的优点。


3.7带有深度思考的模型与思维链

带有深度思考的模型旨在让人工智能系统具备类似人类的推理和思考能力,思维链(ChainofThought,CoT)是实现这一目标的重要技术之一。

思维链的核心思想是让模型在解决问题时,不仅给出最终答案,还能生成中间的推理步骤,类似于人类思考问题的过程。通过在训练数据中加入推理步骤的示例,模型能够学习如何逐步推导得出结论。

例如,在回答数学问题时,模型会先分析问题,列出相关的公式和步骤,然后逐步计算,最终得到答案。这种方法显著提高了模型在复杂推理任务上的表现,尤其是对于需要多步逻辑推理的问题。


3.8大模型的训练和微调

大模型的训练是一个复杂的过程,涉及海量数据和巨大的计算资源。训练过程通常采用自监督学习或无监督学习的方式,利用大规模的无标注数据来学习数据的通用特征和模式。以语言模型为例,预训练阶段通过掩码语言模型(MLM)、下一句预测(NSP)等任务,让模型学习语言的语法、语义和上下文关系。

在预训练完成后,通常需要通过微调(Fine-Tuning)将模型适配到具体的下游任务,如文本分类、问答系统等。微调过程使用任务相关的标注数据,通过调整模型的部分或全部参数,使模型能够更好地完成特定任务。


3.9检索增强生成(RAG

检索增强生成技术将检索系统与生成模型相结合,在生成内容时通过检索外部知识库来获取相关信息,从而提高生成内容的准确性和时效性。

RAG的工作流程通常包括以下几个步骤:首先,将用户的查询或生成任务转换为特征向量;然后,在外部知识库中检索与该特征向量匹配的相关文档或信息;最后,将检索到的信息与生成模型结合,生成包含准确信息的内容。

图片3.png

这种方法解决了传统生成模型可能存在的幻觉Hallucination)问题,即生成错误或不存在的信息。在问答系统、知识图谱生成等场景中,RAG技术能够利用最新的知识和数据,生成更可靠的回答。


3.10智能体(Agent

智能体是指能够感知环境并根据感知结果采取行动以实现特定目标的人工智能系统。智能体具有自主性、反应性、主动性和交互性等特点,能够在复杂的环境中自主决策和行动。

智能体的架构通常包括感知模块、决策模块和行动模块。感知模块负责从环境中获取信息;决策模块根据感知到的信息和自身的目标,制定行动计划;行动模块执行决策模块制定的计划,与环境进行交互。智能体技术在任务规划、机器人控制、游戏策略等领域取得了重要进展。


CAIE人工智能工程师认证官网: https://www.caieglobal.com/

领取更多AI学习资料,获取岗位信息
添加微信:FYLlaoshi  备注:社群 邀请您加入CAIE人工智能交流社群

CAIE,全称Certificated Artificial Intelligence Engineer(注册人工智能工程师),是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。CAIE 认证体系主要针对从事或希望从事人工智能技术研发、应用及项目管理等相关工作的专业人员,考核范围包括但不限于人工智能的基础理论、主流算法、开发工具、编程实践、以及在不同行业、不同领域、不同岗位场景下的应用能力,包括CAIE+营销\人力\财务\学术\医疗\视频等不同场景下的应用。

CAIE 认证的价值不仅反映了持证人在人工智能领域的专业技术水平,提升了持证人在职场上的竞争力,满足了市场对具备高级技能的人工智能人才的增长需求;而且获得 CAIE 认证的持证人可以证明自己在应对复杂 AI 工程任务时具有较高的专业胜任力,有助于个人职业发展和企业的人才选拔。

CAIE 认证体系密切关注人工智能领域的最新科研成果和技术动态,并及时将其纳入考核标准和课程体系之中,确保持证者始终站在行业发展的最前沿,包括对新兴技术如强化学习、生成对抗网络、边缘计算等的理解,以及对AI技术在自动驾驶、医疗健康、金融科技、工业制造等领域具体应用的掌握。

欲从事人工智能相关岗位或用人工智能技术赋能原有岗位的人员,可以报考 CAIE 人工智能认证考试,通过考试者可获得中英文认证的 CAIE 证书。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群