收藏 2025-11-19

前言

随着人工智能领域的快速扩展，Apache Kafka 在数据流通方面的作用变得越来越重要，成为企业数字化转型过程中的关键组件。在 2025 年的云栖大会上，我们有幸能够全面回顾并分享过去一年中，云消息队列 Kafka 版在技术创新和行业应用上的最新进展。作为处理大量信息的核心平台，云消息队列 Kafka 版通过架构革新、性能提升以及生态系统的整合，为构建实时数据驱动的应用提供了强大的支持，不断促进客户的业务创新。

云消息队列 Kafka 版的发展历程

自 2018 年起，基于 RocketMQ 内核的 Kafka 协议支持，云消息队列 Kafka 版始终围绕着低投入、高稳定性和丰富的生态系统这三个核心目标推进其产品发展。

2023 年，我们推出了完全兼容 Apache Kafka 开源版本的 V2 版本，并增强了跨区域灾难恢复的能力。这一阶段，我们的重点在于提高产品的稳定性，解决了用户在升级、降级配置或遇到节点故障时，由于资源消耗过多、输入输出负载过高等原因导致的服务读写性能下降问题，确保了 Kafka 服务的持续稳定运行。

2024 年，我们实现了 Kafka 存储与计算分离的架构设计，支持计算和存储资源的自动弹性调整，以及快速的副本切换和扩展。基于这一架构，我们推出了 V3 Serverless 版本，不仅提高了 2 倍的弹性容量，还引入了定时弹性伸缩功能，有效应对了突发流量和大规模活动带来的高访问压力，大幅减少了用户的固定预留成本。此外，还增加了风险检测和预警功能，帮助用户提前发现潜在的服务问题，进一步巩固了 Kafka 服务的可靠性。

截至 2025 年 9 月，我们在 Serverless 系列产品上推出了基础版和专业版，分别针对低成本交付和高弹性需求进行了优化，以满足不同客户对成本效率和高可靠性的追求。

随着智能联网汽车业务的快速发展，Kafka 进一步强化了终端数据处理的支持，新增了通过 MQTT 协议将数据传输至 Kafka 的功能，并在 Kafka 服务器端集成了消息格式化 Schema 功能，为数据清洗、提取和标注等高级数据处理任务奠定了基础。

在下半年，我们计划增强数据处理能力，推出基于 SQL 语言的流数据处理功能，包括数据导入数据库、数据仓库或数据湖，以及可视化流数据关系等功能，构建一个全面的流数据处理平台，为 AI 数据收集和处理提供一站式的解决方案。

2025 年的重要更新

数据是人工智能应用的基础。为了应对 AI 场景中海量数据的高效交互与存储挑战，我们今年在 Serverless 系列标准版的基础上，新增了两个版本，旨在进一步降低成本。

基础版： 使用与开源自建预部署相同的配置，但采用了更多低成本资源，如 HDD、OSS 和 Spot 实例等。此外，还加入了冷数据迁移功能，将旧数据存储于分布式文件系统中，从而减少计算和存储成本。基础版的服务可用性达到 99.9%，适合用于测试环境或流量稳定的业务场景。
专业版： 经过硬件优化，采用 3AZ 架构，提供高达 10 倍的预留弹性能力，特别适用于需要极高可用性和应对突发流量的业务场景，服务可用性可达 99.99%。

相比开源集群（1200MB/s 吞吐量、1:1 读写比、基于 SSD 云盘的三副本配置），基础版降低了 90% 的成本，标准版降低了 75%，而专业版则降低了 60% 的成本。对于那些对稳定性和可靠性有更高要求的核心业务，我们强烈推荐选用专业版。

行业认可与未来展望

2025 年 7 月，阿里云消息队列 ApsaraMQ 旗下的 ApsaraMQ for RocketMQ 和 ApsaraMQ for Kafka 成为了首批通过中国信息通信研究院“Serverless 云服务能力要求 - 消息队列”认证的产品，这标志着 ApsaraMQ 系列在自适应弹性、稳定可靠等方面的技术成熟度和行业领先地位。

面对 AI 推动下的智能终端业务增长，例如车联网、自动驾驶、语音智能识别等应用场景，我们加强了从终端到云端的全链条产品能力。MQTT 协议为终端设备接入云服务提供了轻量级的连接方式，而 Kafka 则作为流式数据存储的核心引擎，确保了数据链路的有序性。在数据到达 Kafka 之前，MQTT 服务支持基于 SQL 的数据抽取和格式化处理，减轻了后续数据处理的负担。同时，它还提供了基于 MQTT 协议的事件查询功能，如订阅/取消订阅、消息确认等，便于实现业务逻辑的闭环。例如，在车联网中，当指令通过 MQTT 发送后，可以通过消息确认机制让业务系统感知到事件的发生。

在语音智能识别风险等应用场景中，利用 MQTT+Kafka 方案，可以显著减少构建和维护底层数据链路的工作量，让开发人员能够更加专注于核心业务逻辑的实现，加快业务创新和产品的上市速度。

上述能力是云消息队列 Kafka 版在 2025 年上半年的重点交付成果。接下来，我们将探讨云消息队列 Kafka 版在 AI 应用场景中的应用思考。

云消息队列 Kafka 版在 AI 场景中的应用思考

人工智能的发展概述

过去十年，人工智能已成为一项革命性的技术，悄然深入我们的日常生活之中。从智能手机、自动驾驶汽车，到聊天机器人和虚拟助手，AI 已经改变了人机交互的方式。

目前，人工智能的应用大致可分为两类：预测性 AI 和生成式 AI。尽管人工智能技术已有多年历史，但近年来的迅猛发展，得益于多种因素的共同推动，如可复用的大规模语言模型（LLM）、更加易用的机器学习（ML）技术和 GPU 技术的进步。这些进步不仅提升了模型的性能，也降低了云计算数据基础设施的成本，使得生成式 AI 成为了当前最热门的应用领域，例如 ChatGPT 和 Github Copilot 等。

然而，无论 AI 模型是用于预测还是生成内容，它们都无法孤立存在。即使拥有出色的模型，如果数据质量不高、不可靠或不即时可用，这些模型的价值也将大打折扣。

AI 场景下的数据特点

下图左侧的流程图展示了从学习数据到最终应用调用的生成式人工智能全过程，其中包括持续的学习和迭代环节。流程节点如下：

收集各类来源的原始数据，涵盖文本、图像、音频、视频等多种类型。这些数据需经过清洗、标注、格式化和预处理，以便于模型训练。
使用处理过的数据训练模型。这一阶段通常涉及选择适当的模型架构、定义损失函数和优化器，并通过多次迭代调整模型参数，以增强模型对数据的理解能力。
通过独立的评估数据集测试训练完成的模型性能，评估指标包括但不限于生成内容的质量、相关性和多样性。依据评估结果，进一步优化模型，如调整超参数、修改模型结构或重新训练等。
将训练并优化完成的模型部署至实际应用环境。
用户通过应用程序或接口与模型互动，模型依据输入生成相应的输出，如文本、图像或音频等。
用户在使用过程中提供的反馈，如对生成结果的评价、修改建议或新需求，会被收集起来作为新的数据点，用于模型的持续学习和改进，形成闭环。

AI 应用场景中的数据具有与传统业务数据显著不同的特点，给数据处理和传输系统带来了新的挑战。这些特点主要包括：

高比例的非结构化/半结构化数据：AI 模型经常需要处理图像、音频、视频、文本、JSON 和日志等非结构化或半结构化数据。消息队列中传递的数据通常是原始数据包，如 JSON、Protobuf 或 Avro 格式，包含了丰富的上下文信息。
高吞吐量、低延迟要求：AI 系统（如实时推荐、异常检测和自动驾驶）通常需要实时或接近实时的响应。数据源可能包括传感器、日志流和用户行为事件等，产生连续不断的流式数据。因此，需要通过消息队列实现高效、低延迟的数据传输。
大数据量和持续性：AI 训练和推理依赖于大规模的数据集，且数据流具有持续性（如全天候运行），导致数据快速积累，例如 IoT 设备每秒可能生成数百万条消息。
复杂的语义和强上下文依赖：数据内容通常包含时间戳、设备信息、用户信息和地理位置等元数据，这些信息对于后续的特征工程或模型推理至关重要。事件之间可能存在时序依赖关系（如用户行为序列），需要保持正确的顺序或进行窗口聚合。
多源异构数据的融合：AI 系统经常需要整合来自不同系统的数据，如用户画像、行为日志和外部 API。这些数据的格式可能各不相同。

传统 ETL 在 AI 数据链路中的挑战

传统的数据处理方法，如 ETL（Extract, Transform, Load），通过将数据处理后存入大型共享存储中，用于后续的数据价值实现，如制作报表和数据分析。然而，这种方法在应对当前数据集成需求时面临诸多挑战，尤其是基于批处理的 ELT 管道。

挑战 1：数据的时效性问题：当数据以批处理方式提取和处理时，最终得到的是低保真的快照，这会导致数据的不一致性和信息的过时。这是因为，在批处理过程中，数据提取和处理的时间间隔较长，使得数据无法及时反映最新状态，从而影响了数据的准确性。这就像每隔一段时间拍摄一次照片，照片间的间隔可能会错过一些变化，造成快照之间的不一致性。过时的信息则可能导致下游系统基于陈旧数据作出错误决策。

挑战 2：改造和再加工的高昂成本与复杂性：随着数据量的增长和技术的演进，原有的数据处理管道可能不再适用，对其进行改造和再加工不仅成本高昂，而且过程复杂。这要求企业不仅要投入大量资源进行技术升级，还要不断调整数据处理流程，以适应新的业务需求和技术环境。

在批量处理过程中，为了满足各种业务需求，数据需要经过多次转换和再加工，这不仅增加了计算成本，还提高了维护不同数据集的复杂性。此外，将这些增量更新整合到现有数据中，对处理逻辑提出了更高要求，特别是当数据来源多样或服务于多个下游系统时，处理难度显著增加。

问题 3：数据质量和可信度

随着应用程序或数据格式的变化，数据仓库或数据湖中可能会积累“垃圾数据”，导致依赖这些数据的系统和应用基于错误信息运行。解决这类问题通常需要一个多步骤的、复杂的、手动流程。

如何提升数据质量和可信度？关键在于在数据处理的各个阶段实施数据质量管理措施，如数据清洗、验证和补充等，确保数据在进入数据仓库或数据湖前已通过严格审查。同时，应建立数据质量监控系统，实时跟踪数据质量，迅速发现并修复问题。此外，利用数据格式管理工具和策略，确保数据格式变更得到有效管理和控制，降低数据变化风险。

分析的目标是推动业务发展，通过对公司长期积累的各种格式数据进行综合分析，最终应用于业务中，支持应用开发团队为客户构建实时的生成式AI应用程序和聊天机器人等。

因此，需要引入更多工具，如反向ETL管道，将数据从分析系统反馈到运营系统和应用程序中。若前期分析数据存在偏差，则会导致系统因脏数据累积而产生越来越多的问题。

Kafka + Flink 更好地释放数据价值

针对传统批处理数据管道存在的时效性差、处理成本高和质量难以控制等问题，基于Kafka与Flink的实时流处理架构提供了一种有效的解决方案，能够更好地挖掘数据价值。这种架构将数据处理和治理融入数据流中，实现数据的一次构建，在几毫秒内即可随时重复使用。

通过这种方式，可以解决数据不一致性问题，减少重复处理的成本，防止数据质量问题影响下游处理，从而最大化数据处理投资的回报。选择Kafka与Flink的组合，主要是因为：

Kafka是行业公认的数据流通信标准，适用于数据库、SaaS和客户应用程序等系统间的通信。
Flink作为一种流处理引擎，能够动态处理、清洗和丰富数据流，并提供多种入库、入湖、入表的集成方式。

尽管这一方案具有明显优势，但在实际应用中，技术团队仍需应对流处理引擎的选择、技术组件的网络架构设计和版本兼容性等挑战，这些都要求具备一定的技术能力和资源投入。

云消息队列 Kafka 版客户案例

今年，我们见证了许多客户基于阿里云消息队列Kafka版构建统一数据处理架构的成功案例，包括理想、吉利、极氪、长城汽车的智能驾驶业务，MiniMax的人工智能业务，以及货拉拉、运满满、尚游游戏的大数据分析业务。

这些客户的流数据处理系统基本上遵循上述架构，旨在解决高吞吐量、低延迟、数据持久性和可靠性、成本效益管理和大规模集群运维复杂度等问题。云消息队列Kafka版提供了自适应和定时弹性的功能，确保高峰业务平稳运行；同时，具备多可用区秒级恢复时间和零数据丢失的灾难恢复能力。与自建系统相比，基于Serverless的不同版本平均节省了超过20%的成本。

然而，在服务客户的过程中，我们也发现了Kafka作为流量入口的一些局限性，这些将是未来规划的重点。

云消息队列 Kafka 版下阶段目标

阿里云消息队列Kafka版的下一步计划是构建一个面向AI场景的数据流平台。我们将在Kafka版产品上提供全面的流传输、流处理和流治理能力。

流传输：通过Kafka结合丰富的Connector，构建一个事件流网络，确保数据能流向任何需要的地方，无论是数据仓库、数据湖还是您的应用程序，使每个下游消费者都能一致地获取最新数据。
格式管理：利用Kafka Schema定义数据格式——这是数据生产者和消费者之间的一个明确协议，确保数据在管道中的结构和语义符合预期，防止不合规数据的侵入。
流处理：提供基于SQL语义的流处理功能，允许数据连续转换、过滤和聚合，生成满足业务需求的新数据。这减少了冗余处理的成本和复杂性，确保数据的准确性和可复用性。
数据关系：提供Kafka上的数据传输过程视图——通过可视化图表展示复杂的数据关系和问题，帮助做出更明智的决策。用户可以清晰地了解数据的来源、去向及其使用方式，从而不必担心更改或演进可能带来的不确定性。
数据入表：最后，实现结构化数据的入表和入湖。这种集成极大简化了以分析查询引擎所需的格式访问数据的过程，大幅降低了成本。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

前言