Ascend C中的“流水线”艺术：为何计算与搬运要重叠？

收藏 2025-11-19

我在CANN训练营中，刚刚指挥着上百个核函数实例完成了向量加法的操作。看着

msprof

性能分析报告中显著提升的指标，我感到非常自豪，以为已经达到了性能的极限。然而，直到训练营的导师在“码力全开特辑”中展示了优化前后的对比：

一个复杂的算子，在采用“流水线”技术后，耗时从10毫秒降到了不到4毫秒。

我感到十分震惊。这并不是通过增加更多的核（

blockDim

）实现的，而是通过一种更为巧妙的技术，使核函数内部能够“一心二用”。导师指着性能分析图中代表AI Core计算单元利用率的曲线说：“看，没有流水线时，它像锯齿一样起伏不定；而有了流水线，它变成了一条坚实的高原。这就是计算与搬运重叠的魔力。”

在[2025年昇腾CANN训练营第二季]的深入指导下，我花费了大量时间研究这一令人着迷的“流水线”概念。今天，让我们一起探索“流水线”艺术的神秘面纱，看看它是如何让我们的算子性能实现第二次飞跃的。

突破性能瓶颈，需要洞悉底层架构：

点击加入训练营，掌握高级优化技巧

第一章：一个“忙里偷闲”的AI Core——问题的根源

让我们回到没有流水线的“原始”时代，回顾一下我们之前算子的工作模式。以处理多个数据块（Tiles）的算子为例，其工作流程如下：

搬运第1块数据（从GM到LM）
计算第1块数据（在LM上）
回写第1块结果（从LM到GM）
搬运第2块数据
计算第2块数据
回写第2块结果
...（循环）...

问题在于，AI Core强大的计算单元在步骤1和步骤3期间是完全空闲的！这就像是一位世界级的厨师，不得不亲自去冷库取食材（数据搬运），取回后再开始烹饪（计算），完成后还要自己把菜肴端到前厅（结果回写）。在这个过程中，他大部分时间都在跑腿，灶台（计算单元）大部分时间是冷的。

这就是性能问题的关键所在：计算与搬运是串行的，资源利用率极低。

第二章：流水线的核心思想——让厨师和配菜员并行工作

流水线的思想源自工业生产，通过将任务分解为多个阶段，并让这些阶段同时处理不同的任务产品，从而大幅提高整体效率。

在Ascend C中，这一理念被巧妙地应用：

核心思想：将“数据搬运”和“数据计算”视为两个独立且可以并行的任务。

任务一：数据搬运。由AI Core内部的数据搬运单元（Data Copy Unit）执行。
任务二：数据计算。由AI Core内部的计算单元（Cube/Vector Unit）执行。

流水线的目标是让搬运单元和计算单元同时忙碌。

当计算单元正在计算第N块数据时，搬运单元应同时搬运第N+1块数据。这样，当计算单元处理完第N块，准备处理第N+1块时，所需的数据已由搬运单元提前准备好，无需等待。

这好比为顶级厨师配备了一位专业的配菜员。当厨师在烹饪第N道菜时，配菜员已经在旁边为他准备第N+1道菜的食材。厨师几乎可以不间断地工作，整体出菜效率大幅提升。

第三章：双缓冲实战——Ascend C中的流水线实现

在Ascend C中，实现这一目标的标准技术是“双缓冲（Double Buffer）”。

1. 什么是双缓冲？

简单来说，就是在本地内存（LM）上分配两个相同大小的缓冲区（Buffer0和Buffer1）。

Buffer A：用于计算单元访问（计算当前数据块）。
Buffer B：用于搬运单元访问（为下一个数据块搬运数据）。

当一个计算-搬运周期结束后，两个缓冲区的角色会进行交换。

2. 代码实现拆解：从“顺序”到“重叠”

让我们改造之前的向量加法，引入双缓冲流水线。

朴素版本（串行）：


for (int tileIdx = 0; tileIdx < tileNum; ++tileIdx) {
  // 1. 搬运
  DataCopy(localBuffer, gmInput + tileOffset, tileLength);
  // 2. 计算 (此时搬运单元闲置)
  for (int i = 0; i < tileLength; ++i) {
    localBuffer[i] = localBuffer[i] * 2 + 1;
  }
  // 3. 回写 (此时计算单元闲置)
  DataCopy(gmOutput + tileOffset, localBuffer, tileLength);
}

双缓冲流水线版本：


#include "kernel_operator.h"
using namespace AscendC;

// 1. 在LM上申请双缓冲
constexpr int32_t TILE_LENGTH = 256;
uint8_t localBuffer0[TILE_LENGTH]; // Buffer A
uint8_t localBuffer1[TILE_LENGTH]; // Buffer B

// 2. 使用Pipe管理数据流
Pipe pipe;

定义缓冲区数量为双缓冲：

constexpr int32_t BUFFER_NUM = 2;

设定数据传输块的大小：

TPipe transferPipe;
    constexpr int32_t TRANSFER_COPY_UNIT = 32; // 每个传输单位为32字节

初始化流水线流程：

提前将首个Tile的数据复制到Buffer0。
针对每个Tile执行以下操作：
1. 利用Buffer0对当前Tile进行计算。
2. 如果当前Tile不是最后一个，则异步地将下一个Tile的数据复制到Buffer1，这一过程与当前计算同时进行。
3. 将当前Tile的计算结果从Buffer0回写至输出。
4. 交换缓冲区的角色，使Buffer1成为下一次循环的计算缓冲区，而Buffer0则用于准备下一数据块的复制。

上述代码的关键在于步骤c，即在计算单元忙于处理数据的同时，通过异步方式启动下一块数据的复制操作。由于存在专门的数据复制单元，此操作能够与当前计算任务实现物理上的并行处理。

Buffer0

DataCopy

Buffer1

第四章：性能的实证——从理论到数据

当我的图像预处理算子从串行版本升级到双缓冲流水线版本后，性能分析报告显示了显著的改进：

串行版本：AI Core计算单元的利用率在0%到100%之间大幅波动，平均利用率约为35%。
双缓冲版本：计算单元的利用率保持在85%以上，且波峰和波谷得到有效平衡。

最终，算子的整体执行时间减少了大约60%，这充分证明了最初指导老师所展示的理论。

msprof

第五章：深入思考与进阶展望

1. 流水线的成本

双缓冲的主要成本在于本地内存（LM）资源的加倍使用。对于LM资源已十分紧张的情况，双缓冲可能会占用其他必要数据的空间，因此需要谨慎考虑。

2. 超越双缓冲

虽然双缓冲是最常见的流水线形式，但它绝非终点。在Ascend C中，可以通过更加精细的控制接口，如

Pipe

和

Queue

，构建具有更多阶段和更复杂结构的流水线，例如将数据复制、预处理、主计算及后处理等环节分别设置为独立的流水线阶段，从而达到任务级别的极致并行。

3. 调试技巧

调试流水线并发程序比调试串行程序要复杂得多。一种有效的调试方法是使用“屏障同步”，即在数据复制和计算之间临时插入同步点，使程序暂时退化为串行模式，确保逻辑无误后再移除这些同步点以优化性能。

结语：从“执行者”到“架构师”的二次飞跃

掌握流水线技术是我参加CANN训练营期间的第二次认知飞跃。第一次飞跃是学会如何从单核向多核转变，即如何利用“人海战术”。而这次，我学会了如何使每个“士兵”（核函数实例）内部都能高效运作。

我不再仅满足于代码能够正确运行，而是开始像芯片架构师那样思考，如何在时间和空间维度上精心安排数据流与计算流，确保硬件的每个部分都能得到充分利用。

这使我更加深刻地理解和尊重昇腾AI处理器的内部架构。在训练营的后续课程中，我们将探讨如何结合多核并行与核内流水线技术，这是挖掘硬件极限潜能的终极艺术。我已经听到了来自性能巅峰的呼唤。

想让你的算子性能突破限制，体验软硬件协同优化的极致艺术吗？>> 立即注册2025年CANN训练营第二季，成为一名性能优化专家。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航