11 月 30 日,首场 HAMi Meetup 在上海模速空间顺利落幕。本次活动以“不卷算力卷效率”为核心主题,吸引了近百位来自AI开发、运维工程及企业IT架构领域的专业人士现场参与,同时超过700名观众通过线上直播实时观看。会议聚焦于异构算力调度的关键挑战,汇聚了CNCF、密瓜智能、蔚来、沐曦股份、DaoCloud、星环科技等多家机构的技术专家,围绕国产算力落地、AI训练优化、资源利用率提升以及异构芯片适配等实际问题,深入剖析可复用的技术方案,并全面分享项目实施过程中的协作经验与避坑策略,内容高度务实,信息密度极高。
五大议题精彩回顾
《基于 vGPU 的 mlperf》
该环节重点探讨了在虚拟化GPU环境下如何高效运行mlperf基准测试。通过结合vGPU技术,实现对显存和计算能力的精细化分配,使得多个工作负载可以在同一物理GPU上并行执行而互不干扰。演讲中展示了在不同虚拟化配置下性能表现的一致性与稳定性,验证了HAMi平台在支持标准化AI性能评估方面的成熟度。此外,还介绍了如何利用调度策略优化任务排队机制,减少等待时间,提高整体测试吞吐量,为构建可信、可比的AI推理与训练评测体系提供了实践路径。
《MetaX sGPU on HAMi》
来自沐曦股份的云原生基础架构专家、MetaX sGPU核心贡献者郭磊详细讲述了sGPU在HAMi社区中的集成历程。sGPU支持以1MB级粒度切分显存、1%级粒度调配算力,配合HAMi调度器与MetaX设备插件,使Pod能够按需申请如“60%算力+4GB显存”这样的虚拟GPU资源。在调度层面,HAMi原生支持节点级和GPU级的binpack/spread策略,可根据业务需求灵活组合,兼顾资源利用效率与服务隔离性;在服务质量(QoS)方面,提供best effort、fixed share、burst share等多种模式,满足从完全抢占至弹性配额的不同保障等级。结合在线与离线任务混部机制,在资源紧张时自动暂停低优先级任务,确保高优推理服务稳定运行。借助拓扑感知调度能力,整卡任务还可优先选择通信链路更优的GPU组合。郭磊总结指出,sGPU与HAMi的深度融合,使沐曦能够在Kubernetes环境中,通过标准接口向上层应用提供“可共享、可调度、可精细控制”的GPU服务能力。
《HAMi 2.7.0 版本解读与 2.8.0 版本 Roadmap:异构芯片全适配与调度能力跨越式升级》
HAMi 核心维护者李孟轩系统介绍了项目从2.7.0到2.8.0版本的功能演进。在可用性方面,2.7.0版本新增了调度原因可视化功能和资源配额监控优化,帮助用户快速定位Pod处于Pending状态的原因,并更精确地统计显存使用情况,有效解决因虚拟化导致的配额失真问题。在生态兼容性方面,HAMi目前已支持9家厂商的GPU产品,并进一步扩展至昆仑芯XPU、AWS Trainium / Inferentia等异构加速设备,所有能力均通过Web UI进行友好呈现。面向未来,2.8.0版本将重点提升调度性能,并增强Web界面对于异构设备的支持能力。同时规划采用DRA(Device Resource API)框架,将原有的scheduler与device plugin功能整合至统一的DRA driver中,在保持用户操作习惯不变的前提下,实现动态切分、硬隔离及多维资源指定等功能的标准化,为大规模集群部署奠定坚实基础。
重磅开场:云原生AI时代的效率革命
CNCF亚太地区中国主席、Linux基金会副总裁 Keith Chan 发表了开幕致辞。他强调,HAMi在GPU虚拟化方向取得的重要突破,已成为推动全球企业建设云原生AI基础设施的核心力量之一,也促使其成功进入CNCF孵化阶段并持续快速发展。随着生成式AI的兴起,越来越多的大模型应用正全面向云原生环境迁移——目前已有70%–80%的AI训练与推理工作负载运行在Kubernetes之上。企业关注的重点已不再仅仅是“拥有多少GPU”,而是“如何高效使用这些GPU”。全球调研数据显示,超过80%的企业认为“开源是实现AI成熟的关键驱动力”,而多云部署则成为大模型时代的技术共识。
为此,CNCF正联合全球主流厂商共同推进 Certified AI Platform for Kubernetes 标准化计划,涵盖加速器、存储、网络、调度、可观测性与安全等关键领域,设置100余项一致性测试(Conformance Test),旨在保障AI工作负载在多云环境下的兼容性、可移植性与可观测性。随着云原生技术不断向AI、边缘计算、量子计算与分布式系统渗透,大模型时代的基础设施竞争正从“堆叠硬件”转向“效率博弈”。Keith Chan 表示,HAMi在GPU虚拟化与异构资源调度方面的持续创新,不仅为全球AI基础设施建设提供了关键技术支撑,也将与CNCF携手共建下一代云原生AI生态体系。

在现代AI业务实践中,虚拟化已不再是“要不要用”的问题,而演变为“如何选择副作用最小的方案”这一关键决策。蔚来云端工程部训练加速负责人李鹏以《基于 HAMi vGPU 的训练性能优化框架》为主题,深入分享了在虚拟化环境中实现高精度性能诊断的技术路径。
他指出,HAMi 利用基于 perf 的虚拟化机制,为性能分析提供了天然入口。通过拦截 CUDA、cuBLAS 和 NVML 等核心 GPU 库函数,无需修改任何业务代码即可完整捕获 GPU 全链路调用行为。这种无侵入式的数据采集方式,使团队能够全面记录显卡执行逻辑、kernel 调度、显存使用情况以及通信过程,并结合外部 perf 采样构建 CPU 与 GPU 的双侧时间线。
借助时间轴融合技术,系统可精确还原任务在任意时刻的运行状态,进而识别出诸如低并行度、通信阻塞或异常 API 参数等关键性能瓶颈。从产品角度看,该框架实现了“底层性能定位 + 上层代码溯源”的闭环诊断能力:既能量化算力和显存的利用效率,也能跨进程关联到具体的业务模块。
目前,该体系已在蔚来自动驾驶的大模型训练场景中成功落地,为推理链路优化和多模态任务加速提供了有力支持,显著降低了 GPU 资源浪费现象。
《HAMi:让开源GPU调度赋能 d.run 的 AI 开发者》
「DaoCloud」道客产品负责人卢传佳分享了 d.run 智算调度平台如何结合 SaaS GPU 租赁模式与 HAMi 的虚拟化能力进行深度整合。d.run 采用云原生架构,将多种类型的 GPU 资源池化后按需输出,广泛应用于模型训练、推理服务及数据处理等场景。
在算力即服务(CaaS)业务中,HAMi 作为底层虚拟化引擎,支撑起国产 GPU 的统一接入能力,并提供显存与算力的灵活切片功能。卢传佳提到,企业自建GPU环境常受限于“整卡使用”模式,资源利用率难以提升;而SaaS租赁虽具备按需付费带来的弹性优势,却容易因供需波动导致资源池出现“碎片化且不稳定”的运营难题。
在此背景下,HAMi 所提供的动态切片与资源超配能力展现出显著价值:不仅有效缓解了资源碎片问题,还使得单张物理卡可对外提供多种规格的虚拟资源单元(如 3G、6G、12G、24G 显存配置),极大丰富了资源 SKU。同时,通过显存动态扩容机制,避免了因 OOM 导致容器重启的情况,提升了系统的稳定性与资源管理的精细化水平。
当前,d.run 已基于 HAMi 构建起完整的 GPU 切片租赁平台,支持多集群资源池化、国产加速卡统一调度、租户级优先级控制与抢占策略,并已在推理 MaaS、企业大模型部署以及面向个人用户的 GPU 云服务等多个场景中实现落地应用。随着 HAMi 在 DRA(Device Resource API)和配额管理方面的持续演进,未来算力云有望进一步提升资源复用率,真正实现“把 GPU 切得更细、用得更满”的商业目标。
《星环 x 国产算力生态:适配实践》
星环科技人工智能产品部 AI 工具平台研发工程师侯雨希围绕其 LLMOps 平台在寒武纪、海光等国产加速器上的适配经验进行了详细阐述。她重点介绍了如何借助 HAMi 实现对多型号、多架构国产 GPU 的统一纳管,并结合 DRA 构建可扩展的算力抽象层。
星环的 LLMOps 平台承担着企业级大模型全生命周期管理职责,需满足多租户隔离、资源组划分、任务排队机制、自定义显存/算力切片模板以及全链路可观测性等多项复杂需求。为此,HAMi 成为其连接各类异构 AI 加速器的核心基础设施。
在对接寒武纪设备时,团队克服了 sMLU 动态切片粒度过粗、不同型号资源命名冲突、以及因硬编码显存单位导致无法准确统计总量等问题。通过引入节点 label、完善型号识别逻辑、并采用资源对象数组方式进行配置,最终实现了与昇腾、英伟达设备一致的多型号统一管理模式。
针对海光 DCU 场景,团队则解决了设备 ID 不唯一、exporter 无法正确暴露监控指标、Pod 与设备映射错乱等挑战。通过调用驱动 SDK 获取硬件序列号,重建设备唯一标识,并重写 exporter 的数据上报逻辑,使其与 HAMi 设备插件的记录格式保持一致,从而保障了监控数据与调度决策的一致性。
展望未来,侯雨希表示,DRA 将成为异构 GPU 统一抽象的重要方向。借助 DRA 新增的 API 支持、可消耗容量模型以及可分割设备特性,算力切分将逐步从自定义实现过渡到 Kubernetes 原生支持,推动资源管理向标准化迈进。星环科技也将继续深化与 HAMi 社区的合作,共同推进国产 AI 算力的统一调度与标准化建模体系建设。
现场交流热烈,互动氛围高涨
在随后的交流环节中,现场气氛活跃,参会者积极参与讨论。围绕 GPU 虚拟化实践、模型推理效率优化、国产加速器适配经验等热点话题,提出了大量具有实操价值的问题,引发了嘉宾与企业技术团队之间的深度对话。
会场始终座无虚席,许多参会者在活动结束后仍主动与讲者交流技术细节,分享实践经验。整体互动充分反映出行业对提升算力利用效率、构建云原生 AI 基础设施的高度关注与强烈探索意愿。

在本次 HAMi Meetup 中,围绕算力效率提升的主题,活动汇聚了众多企业级实战经验与行业协作共识,激发了线上线下开发者之间的深度交流。从技术细节的深入剖析,到业务场景的实际适配;从开源生态的协同建设,到国产算力的创新探索,现场讨论氛围热烈,思想碰撞不断升温。
未来,HAMi 社区将持续以开源为核心驱动力,联合更多行业伙伴和开发者,聚焦异构算力调度的技术深耕,致力于推动轻量化、高兼容的算力提效方案在更广泛企业中的落地应用,助力数字经济实现高质量发展。
下一场 Meetup 将于12月在北京举行,届时我们将继续围绕“芯”与“序”的主题展开探讨,重点聚焦异构算力虚拟化中的利用率突破问题。
我们将深入解析当前面临的典型挑战,例如算力资源闲置、异构硬件适配困难等导致整体利用率偏低的核心痛点,带来更具实操性的思路与解决方案。
同时,诚邀广大社区成员及行业从业者积极投稿,分享你在异构算力虚拟化方面的优化实践,或所在企业的实际落地案例。通过优质经验的共享与流动,共同探索高效可行的异构算力提效路径。