这项研究由哈尔滨工业大学计算机科学与技术学院的刘振宇、李云鑫等十六位研究人员共同完成,发表于2021年8月《IEEE期刊》第14卷第8期,研究编号为arXiv:2510.13344v1。感兴趣的读者可通过该编号查阅完整的学术论文。
当我们聆听一段优美的钢琴旋律时,大脑会自然地感知其艺术美感;而当有人与我们交谈时,同一器官又能精准解析语言中的语义信息。这种人类习以为常的能力,对人工智能而言却长期构成巨大挑战。哈尔滨工业大学的研究团队近期在这一领域实现了重要突破——他们开发出名为UniMoE-Audio的新型AI系统,具备同时生成高质量语音和创作悦耳音乐的能力,模拟了人脑处理不同类型声音信号的灵活性。
该研究的核心意义在于攻克了一个AI领域的根本难题:如何让一个模型兼顾差异显著的声音任务。语音合成强调清晰度与可懂性,如同新闻播报要求每个字都准确传达;而音乐生成则注重情感表达、节奏变化与旋律和谐,更接近艺术创作。两者虽同属音频范畴,但优化目标截然不同。
传统的人工智能系统往往专精于单一任务,类似于只擅长中餐或西餐的厨师,难以实现跨域协同。若强行让同一模型学习两种技能,常因任务冲突导致性能下降。尤其由于语音数据远比音乐数据丰富,训练过程中容易出现“数据倾斜”现象——就像学生每天上9小时语文课,仅安排1小时音乐课,最终必然导致能力失衡。
为此,研究团队提出了一种创新性的“专家混合”架构。可以将其类比为一个智能乐团:面对钢琴曲时,主奏任务交由“钢琴专家”承担;演奏小提琴作品时,则由相应的“弦乐专家”主导。更重要的是,这个虚拟乐团的成员数量并非固定不变,而是能根据任务复杂程度动态调整参与的专家数量,从而提升资源利用效率。
为了有效训练这一多专家系统,团队设计了三阶段渐进式学习策略:
第一阶段:专业化独立训练
每位“专家”在初始阶段专注于自身领域的技能提升。语音专家集中学习发音清晰度与语调自然性,音乐专家则深入掌握旋律构建与节奏控制。这相当于让每位乐手先扎实掌握本乐器的基本功,在无干扰环境下建立坚实的专业基础。
第二阶段:结构化融合训练
在各专家具备基本能力后,系统进入协作适应期。此时,研究者将这些独立训练的模块整合为统一框架,并引入均衡的数据集进行联合微调。此举确保语音与音乐任务在训练中获得同等权重,避免某一方被另一方的数据量所淹没,类似于乐团排练中协调各个声部的配合关系。
第三阶段:端到端协同优化
最后阶段实现真正的整体协同。整个专家网络以统一目标进行端到端训练,各模块不仅发挥各自优势,还学会识别何时应主动响应、何时应保持静默,形成高效的内部协作机制。最终效果如同成熟交响乐团,个体技艺与集体默契达到高度统一。
从技术角度看,UniMoE-Audio的主要创新体现在两个层面:
其一是动态容量机制。不同于传统静态模型无论输入简单与否均采用相同计算路径,该系统可根据任务需求自动调节激活的专家数量。面对简单的语音合成请求,仅调用少量核心专家;处理复杂的多声部音乐生成时,则启动更多模块协同运算,实现了计算资源的智能化分配。
其二是多层次专家架构设计。系统包含三类功能各异的专家单元:路由专家负责特定任务的知识处理,类似专科医生应对特定病症;共享专家处理跨任务通用特征,相当于全科医生解决常见问题;空专家则可在低复杂度场景下选择不参与运算,避免过度干预,体现“适度治疗”的设计理念。
在数据训练策略上,研究团队采用了类似教育学中的课程平衡理念。面对语音数据远多于音乐数据的现实困境(好比一千名语文教师对应一百名音乐教师),他们并未采取随机采样或简单过采样方式,而是通过分阶段、有控制的教学流程,先保证各领域知识独立发展,再逐步推进融合教学,最终实现跨模态能力的有机整合。
实验结果验证了该方法的卓越性能。在语音合成评测中,UniMoE-Audio在多个客观指标上达到行业领先水平。特别是在主观音质评分测试中,其英语语音输出获得了4.36分的高分(满分为5分),展现出极佳的听觉自然度。尤为突出的是,该系统仅使用28万小时的语音训练数据,便达到了其他主流模型需依赖数千万小时数据才能实现的效果,充分体现了其强大的数据学习效率与泛化能力。
哈尔滨工业大学的这项研究展现了人工智能发展的一个全新方向。它不再局限于让机器模仿人类的单一技能,而是致力于构建具备多样化能力的系统,使AI能够在不同领域之间实现协同与平衡。这种设计理念标志着人工智能正从专用工具迈向通用智能的重要阶段。
在音乐创作方面,UniMoE-Audio表现出色。其生成的音乐在美学质量评估中获得了最高分,涵盖制作复杂度、制作质量和内容享受度等多个维度。这说明该系统不仅在技术层面达标,更在艺术性和欣赏价值上达到了较高水平。同时,它能够准确理解文本描述并生成相匹配的音乐,如同作曲家根据诗歌创作配乐一般精准而富有情感。

研究团队深入剖析了系统的运行机制,发现其内部确实实现了类似专业分工的结构:前四个专家主要负责语音任务,后四个则专注于音乐创作,就像企业中不同部门各司其职。更值得注意的是,系统能根据任务复杂程度动态调整资源分配——处理简单任务时自动减少参与的专家数量以节省算力;面对复杂任务时,则调动更多专家协同工作,确保输出质量。
这种智能化的资源调度策略体现在系统的分层处理架构中。在初始处理阶段,多数任务仅需少量专家参与,主要用于基础声学特征提取。随着网络层级加深,特别是在中间层,系统会动态增加激活的专家数量,进行深层次的特征抽象和跨模态信息融合。进入最终输出阶段后,参与的专家数又会适当回落,集中于整合信息并生成高质量结果。
系统对任务复杂性的判断也令人印象深刻。实验显示,在处理语音任务时,深层网络倾向于激活“空专家”,表明系统识别出此类任务相对简单,可跳过冗余计算步骤;而在音乐生成过程中,专家激活水平始终保持高位,反映出系统明确认知到音乐创作需要更高的计算投入。
从实际应用角度看,该系统具有广泛的应用前景。可用于多媒体内容生产、教育视频制作、游戏开发和个人创作等领域。例如,在教育场景中,它可以同步生成清晰的讲解语音与契合主题的背景音乐;在游戏设计中,为不同角色定制个性化语音的同时,还能创作符合情境氛围的原声音乐;普通用户也可借此轻松制作专属音频内容,无需依赖多个专业软件。
研究还揭示了语音与音乐任务之间的协同效应。尽管二者表现形式不同,但在底层声学处理(如频率分析、时序建模)方面存在共通性。通过共享这些基础能力,两个任务相互促进:语音任务中对清晰度的要求提升了音乐音色的纯净度,而音乐任务中的创造性表达也让语音合成更加生动自然。
研究团队通过大量实验验证了方法的有效性。相比传统的联合训练方式,UniMoE-Audio避免了多任务间的性能退化问题,在语音与音乐两方面均保持高水准输出;相较于专门的单任务模型,它在部分指标上甚至更具优势,真正实现了“一加一大于二”的集成效果。
这一成果的意义远超技术本身。它证明了一个统一的AI系统可以在多个高度复杂的领域达到专业级表现,犹如培养出文理兼修的复合型人才。这对于未来需要处理多种类型任务的人工智能应用场景具有深远影响。
研究过程中遇到的挑战也为后续工作提供了宝贵经验。针对多任务学习中常见的数据不平衡问题,团队提出的分阶段训练策略提供了一种有效解决方案;对于任务冲突现象,动态专家分配机制展示了良好的应对能力。
当然,系统目前仍存在一定局限。在说话人相似度方面,其表现尚不及专业的语音克隆系统,主要受限于当前训练数据的规模,未来有望通过扩大数据集加以改进。在音乐生成的技术匹配度上,虽然艺术表现力强,但与参考音轨的相似性仍有提升空间。
不过,研究团队认为这些并非缺陷,而是系统设计理念的体现。在音乐创作中,过度追求与样本的相似可能抑制创造力。他们的目标是生成具有艺术价值和情感表达的作品,这一取向更贴近真实创作需求。
展望未来,该研究为多模态AI系统的发展奠定了坚实基础。团队计划进一步拓展系统功能,纳入更多类型的音频生成任务;同时优化专家架构,在保证输出质量的前提下提升运行效率;此外,还将探索如何增强系统对用户意图的理解能力,实现更个性化的生成效果。
从社会意义来看,该技术降低了音频内容创作的门槛,使更多人能够参与到声音艺术的表达中。对于视障人士而言,高质量的语音合成有助于改善信息获取体验;对于音乐爱好者,AI辅助创作可以激发新的灵感火花。
从技术层面看,这项研究充分验证了专家混合架构(Mixture-of-Experts)在解决复杂多任务问题上的优越性。它不仅突破了当前的技术瓶颈,也为今后更高级别的AI系统设计提供了重要参考。从实用角度出发,该系统正在重塑音频内容的生产方式,或将深刻改变人们创作与消费音频内容的习惯。
Q&A
Q1:UniMoE-Audio系统是如何同时掌握语音合成和音乐创作的?
A:UniMoE-Audio借鉴了专业团队协作的工作模式,引入了多个功能专一的专家模块,分别处理语音与音乐相关任务。系统采用具备动态容量的专家混合架构,能依据任务难度智能调度参与运算的专家数量。其核心技术在于三阶段训练机制:第一阶段让各专家独立学习特定领域的技能;第二阶段训练专家间的协同配合能力;第三阶段进行端到端的整体优化,实现不同任务之间的高效融合与协同增效。
Q2:为什么以前的AI系统很难同时做好语音合成和音乐创作?
A:主要原因有两个方面。一是任务目标存在本质冲突——语音合成强调表达的清晰度与语义准确,而音乐生成更侧重于情感表达、节奏结构和艺术创新,两者对模型输出的要求差异显著。二是训练数据分布极不均衡,语音数据来源广泛且易于采集,而高质量音乐数据相对稀缺,导致模型在训练过程中容易偏向语音任务,削弱音乐生成能力。这种情况类似于要求一个人用左右手同时烹饪两道工艺完全不同、火候要求各异的菜肴,往往难以兼顾质量。

Q3:UniMoE-Audio系统的实际应用前景如何?
A:该系统具有广泛的应用潜力。在教育领域,可用于自动生成教学视频中的讲解语音与背景配乐,提升内容制作效率;在游戏行业,能够为不同角色定制专属声音表现,并实时生成契合场景氛围的音乐;对于普通用户而言,它降低了音频内容创作门槛,无需掌握多种专业软件即可完成综合性音频生产。此外,该技术对视障人群的信息获取体验改善以及音乐创作者的灵感辅助也具有积极意义。
值得一提的是,这项研究充分体现了中国科研团队在人工智能前沿技术上的创新能力。研究不仅攻克了国际学术界长期关注的多任务兼容难题,还提出了原创性的架构设计思路,为全球AI发展贡献了重要的技术路径与中国方案。感兴趣的读者可通过论文编号arXiv:2510.13344v1查阅完整的技术报告。