【音视频开发】CMOS Sensor图像采集原理及Linux主控ISP处理流程

LYH68666

145

收藏 2025-12-03

CMOS Sensor图像采集原理及Linux主控ISP处理流程

本文将系统性地解析CMOS图像传感器的成像机制及其在Linux平台下的ISP处理流程。从光电转换的物理基础出发，逐步剖析数据传输协议与内核驱动架构，构建完整的图像采集处理知识体系。

0. 系统整体架构概览

图像采集系统涉及硬件感知与软件处理的深度协同，形成一条自下而上的数据流水线。从光信号进入镜头开始，经过CMOS传感器转化为电信号，再通过MIPI等高速接口传输至主控芯片，最终由Linux系统中的V4L2框架调度ISP模块完成图像增强与格式化输出。

1. CMOS图像传感器工作原理详解

1.1 像素结构与物理过程

1.1.1 像素阵列设计

CMOS图像传感器（CIS）的核心为二维像素阵列，用于捕捉空间光强分布。为了实现彩色成像，广泛采用拜耳滤色阵列（Bayer Pattern），其典型排列方式为RGGB。

拜耳模式特点：

RGGB布局：绿色像素数量是红色或蓝色的两倍，因人眼对绿光最敏感，约占亮度感知的60%，该设计符合视觉生理特性。
采样频率差异：水平和垂直方向上颜色分量采样率不一致，导致原始图像仅为单通道数据，需后续通过去马赛克（Demosaic）算法插值得到全彩RGB图像。

每个像素单元包含以下关键结构：

微透镜（Micro-lens）：位于像素表面，作为聚焦元件将入射光线集中于光电二极管的有效感光区域，从而提升填充因子（Fill Factor）。
色彩滤镜阵列（CFA）：每像素上方覆盖特定染料滤镜，仅允许对应波段通过。例如，红滤镜透过约600–700nm波长的光。
光电二极管（Photodiode）：通常采用Pinned Photodiode（PPD）结构，有效抑制暗电流（Dark Current），提高信噪比。

1.1.2 光电转换四阶段流程

图像生成本质上是将光子流转化为数字像素值的过程，主要包括四个连续步骤：

光子吸收（Photon Absorption）：
当入射光子能量 \( E = h\nu \) 超过硅材料带隙（约1.12eV）时，会在半导体中激发电子-空穴对，产生可测量的载流子。
量子效率（Quantum Efficiency, QE）：
定义为单位入射光子所产生的电子数，即 \( QE(\lambda) = \frac{N_{electrons}}{N_{photons}} \)。现代背照式（BSI）传感器在可见光范围内峰值QE可达70%-80%。
电荷积累（Integration Phase）：
在设定曝光时间内，光生电子被PPD势阱捕获。势阱容量称为满阱容量（Full Well Capacity, FWC），直接影响动态范围。若光照过强导致电子溢出，则出现过曝（Clipping）现象。
电荷-电压转换（Charge-to-Voltage Conversion）：
曝光结束后，传输门（TG）导通，电子转移至浮动扩散节点（FD）。FD等效为一个微小电容 \( C_{FD} \)，根据公式 \( V = Q / C_{FD} \) 实现电荷到电压的映射。
```
LP-11
```
转换增益（Conversion Gain, CG）：
高CG模式下 \( C_{FD} \) 较小，灵敏度高但FWC低；低CG则相反，适用于高光环境以扩展动态范围。
相关双采样（Correlated Double Sampling, CDS）：
用于消除复位噪声（kTC噪声）及像素间阈值偏差，具体步骤如下：
- 先复位FD节点，读取参考电压 \( V_{rst} \)；
- 再将光信号电荷注入FD，读取信号电压 \( V_{sig} \)；
- 最终像素有效电压为差值：\( V_{pixel} = V_{rst} - V_{sig} \)。

1.2 成像时序与扫描方式

1.2.1 卷帘快门工作机制

目前大多数消费级CMOS传感器使用卷帘快门（Rolling Shutter），其特点是逐行独立控制曝光起止时间，而非全局同步。

运行机制：

第1行开始曝光（Reset）→ 结束后立即读出（Readout）；
第2行在延迟一定时间后开始曝光 → 随后读出；
依此类推，逐行向下推进。

关键时序参数：

H_Total：单行所占时钟周期总数，包括有效像素与时序消隐（H-Blank）；
V_Total：一帧图像总行数，含有效行与垂直消隐（V-Blank）；
帧率计算公式：\( FPS = \frac{PCLK\_Freq}{H_{Total} \times V_{Total}} \)。

主要缺陷：
由于各行曝光时刻不同，快速运动物体或摄像头抖动会导致图像扭曲，俗称“果冻效应”（Jello Effect）。

LP-11

2. 数据传输与ISP处理链路（待续）

（注：原文未提供后续章节内容，故本部分标题保留结构完整性，实际内容从略）

在捕捉高速移动的物体时，由于成像过程中物体顶部与底部被记录的时间点存在差异，会导致图像出现倾斜或形变现象。

1.2.2 ADC 与读出电路

Column ADC

每个像素列均配备独立的模数转换器（ADC），实现逐列并行数据读取。这种架构是 CMOS 图像传感器相比 CCD 具备更高读出速度的核心原因。

位深 (Bit Depth)

常见的位深为 10-bit 或 12-bit。以 10-bit 为例，其对应的像素值范围为 0 至 1023。

2. 数据传输接口：MIPI CSI-2 深度解析

2.1 MIPI D-PHY 物理层

MIPI D-PHY 是一种基于源同步、采用差分信号的高速串行通信接口。

2.1.1 物理层状态机

D-PHY 并非持续运行于高速模式，而是在低功耗（LP）与高速（HS）两种模式之间动态切换。

电压电平：

LP 模式：使用单端 1.2V 逻辑电平，主要用于控制指令传输和空闲状态维持。
HS 模式：采用差分信号，摆幅为 200mV（共模电压 200mV），专用于图像数据的高速传输。

关键状态：

LP-11（Stop State）：Dp 和 Dn 均为高电平，是总线空闲时的默认状态。
LP-01 / LP-10：触发进入 HS 模式的控制序列。
HS-0 / HS-1：表示处于高速数据传输阶段。

进入高速模式序列 (SoT Sequence)：

LP-11

LP-01

LP-00

HS-0 (Sync)

HS Data Transmission

2.1.2 Lane 分配与时钟机制

Clock Lane：负责传输差分双倍速率（DDR）时钟信号，数据在时钟的上升沿和下降沿均被采样。

Data Lanes：可配置为 1、2 或 4 条数据通道。发送端将数据流按字节交错分配（Byte Striping）至各 Lane。

示例说明：对于如下像素流

P0, P1, P2, P3...

在 2-Lane 模式下进行拆分：

Lane 0:

P0, P2, P4...

Lane 1:

P1, P3, P5...

2.2 CSI-2 协议层

2.2.1 包结构与十六进制分析

CSI-2 的数据流由多个数据包组成，每个包具有固定格式。

包头（Packet Header - 4 字节）

Data ID（1 字节）：
- ```
[7:6]
```
  ：标识虚拟通道（Virtual Channel，编号 0–3），支持单一物理接口上传输多路视频流。
- ```
[5:0]
```
  ：定义数据类型（Data Type, DT）。
- ```
0x2B
```
  ：RAW10 格式
- ```
0x2C
```
  ：RAW12 格式
- ```
0x1E
```
  ：YUV422 8-bit 格式
Word Count（2 字节）：指示负载部分的字节数，采用小端序（Little Endian）编码。
ECC（1 字节）：使用汉明码进行校验，具备纠正单比特错误的能力。

实例解析：

假设捕获到一段 MIPI 数据流：

15 20 03 12

(Header) … Payload …

-> Bin:

0001 0101

-> VC=0, DT=0x15 （示例中代表 YUV422 8-bit；实际 RAW10 对应值为 0x2B）

20 03

-> Word Count = 0x0320 = 800 字节

-> ECC 校验字段

/dev/video0

3. Linux 主控处理流程：从驱动到 ISP

3.1 V4L2 架构详解

Linux 内核通过 V4L2（Video for Linux 2）及 Media Controller 框架来管理复杂的视频设备拓扑结构。

3.1.1 Media Controller Framework

现代 SoC 中的视频系统并非单一组件，而是由图像传感器、MIPI PHY、CSI 接收器、ISP、缩放模块等多个硬件单元构成的完整处理图（Graph）。

核心概念：

Entity：指代具体的硬件模块，如 Sensor 或 ISP。
Pad：表示模块的输入或输出端口，分为接收端（Sink Pad）和发送端（Source Pad）。
Link：连接两个 Pad 的通路，形成数据流向路径。

典型拓扑结构示意：

compatible

3.1.2 驱动加载与初始化流程

I2C Probe 阶段：

内核 I2C 子系统根据设备树中的匹配信息（如

imx219.c

），加载相应的 Sensor 驱动程序（例如

v4l2_i2c_subdev_init

）。

Sub-device 注册：

Sensor 驱动会初始化一个

v4l2_subdev

结构体，该结构体包含一组功能操作函数集

v4l2_subdev_ops

，主要包括：

```
.core
```
：用于电源管理与硬件复位。
```
.video
```
：
```
s_stream
```
控制数据流的开启与停止。
```
.pad
```
：
```
get_fmt
```
和
```
set_fmt
```
实现分辨率等参数的协商。

Async Binding（异步绑定）机制：

Sensor 驱动调用

v4l2_async_register_subdev

发起注册。SoC 端的 VI（Video Input）驱动作为主控方，等待所有设备树中声明的子设备完成注册。

当所有组件准备就绪后，系统调用

.notifier.bound

和

.notifier.complete

建立 Media Link 连接，并最终生成完整的媒体设备拓扑图

/dev/videoX

3.2 ISP（图像信号处理器）核心算法流程

ISP 被称为相机的“大脑”，其主要功能是将传感器捕获的原始数字信号转换为视觉上自然、真实的图像。

3.2.1 完整处理流程图示

ioctl

3.2.2 关键算法详解

黑电平校正（BLC - Black Level Correction）

现象说明： 即便在完全无光的环境中，图像传感器仍会因暗电流产生非零输出值。例如，在10位数据格式下，该值可能为64。若不进行校正，整幅图像将呈现灰蒙状态，并影响后续白平衡等模块的准确性。

算法实现：

通过公式进行像素值修正：
Pixel_out = Pixel_in – Black_Level

镜头阴影校正（LSC - Lens Shading Correction）

成因分析： 受限于镜头光学特性，图像中心区域通常比四周更亮，这种现象遵循“余弦四次方定律”——即光照强度随入射角的 cosθ 规律衰减。

处理方式： 将图像划分为若干网格，每个网格中心存储一个增益系数。对每个像素点，依据其所处位置，通过双线性插值计算对应的增益值，并将其乘以原始像素值，从而提升边缘和角落的亮度。

去马赛克（Demosaic / CFA Interpolation）

任务目标： 每个像素仅能感应一种颜色（R、G 或 B），需通过插值恢复缺失的另外两种颜色分量。

基础方法： 使用双线性插值（Bilinear Interpolation），取周围同色像素的平均值进行估算。

高级策略： 采用边缘自适应插值技术。先检测局部边缘方向，沿边缘方向进行插值运算，避免跨越边缘造成“拉链效应”或出现伪色彩。

自动白平衡（AWB - Auto White Balance）

基本原理： 基于“灰度世界假设”——认为在典型自然场景中，红（R）、绿（G）、蓝（B）三通道的整体平均值趋于相等。

具体操作： 计算红色增益（R_gain）与蓝色增益（B_gain），并应用如下变换：

R′ = R × Gain_R
G′ = G
B′ = B × Gain_B

目的是确保白色物体在不同光源条件下（如暖黄色的钨丝灯或冷蓝色的阴天日光）均能准确还原为白色。

色彩校正矩阵（CCM - Color Correction Matrix）

核心作用： 图像传感器的光谱响应特性与人眼存在差异，且各颜色通道间可能存在串扰。为此，使用一个 3×3 矩阵将传感器输出的原始 RGB 值映射到标准 sRGB 色彩空间。

数学表达式：

\[ \begin{bmatrix} R_{out} \\ G_{out} \\ B_{out} \end{bmatrix} = \begin{bmatrix} RR & RG & RB \\ GR & GG & GB \\ BR & BG & BB \end{bmatrix} \times \begin{bmatrix} R_{in} \\ G_{in} \\ B_{in} \end{bmatrix} \]

Gamma 校正

设计依据： 人类视觉系统对亮度变化的感知是非线性的，尤其对暗部细节更为敏感；同时，显示设备（如CRT、LCD）也具有类似的非线性响应特性。

实施方法： 应用幂函数曲线进行调整：V_out = V_in^γ，其中 γ 通常约为 0.45（即 1/2.2）。此操作可有效增强暗区可见度，同时压缩高光区域动态范围。

3.3 用户空间开发实例

在 Linux 系统中，通常可通过底层接口直接控制硬件设备，也可借助更高层次的多媒体框架进行开发。

libcamera

GStreamer

3.3.1 V4L2 IOCTL 主要操作流程

open： 打开设备节点，建立通信通道。
VIDIOC_S_FMT： 设置采集格式（如 V4L2_PIX_FMT_SRGGB10）及图像分辨率。
VIDIOC_REQBUFS： 向内核申请 DMA 缓冲区用于数据传输。
VIDIOC_QBUF： 将空闲缓冲区加入输入队列，准备接收数据。
VIDIOC_STREAMON： 启动视频流，触发传感器开始工作。
VIDIOC_DQBUF： 从输出队列中取出已填充图像数据的缓冲区。
处理数据： 在用户空间读取并处理图像内容。
VIDIOC_QBUF： 数据处理完成后，将缓冲区重新放回队列，供循环复用。

/* 简化的 V4L2 获取单帧图像代码片段 */
struct v4l2_buffer buf;
memset(&buf, 0, sizeof(buf));
buf.type = V4L2_BUF_TYPE_VIDEO_CAPTURE;
buf.memory = V4L2_MEMORY_MMAP;

/* 1. 从队列中取出已填充的 Buffer */
if (ioctl(fd, VIDIOC_DQBUF, &buf) == -1) {
    perror("DQBUF failed");
}

/* 2. 对图像数据进行处理（buffers[buf.index].start 指向 mmap 映射的内存） */
process_image(buffers[buf.index].start, buf.bytesused);

/* 3. 将处理完成的 Buffer 重新入队，供后续循环使用 */
if (ioctl(fd, VIDIOC_QBUF, &buf) == -1) {
    perror("QBUF failed");
}

4. 总结

从光子与硅片发生相互作用的瞬间开始，到最终在显示设备上呈现出生动画面，整个过程涉及多个技术层面的紧密协作：

物理层
依托光电效应和高精度模拟电路，实现对光信号的捕获与初步转换。

传输层
采用 MIPI 协议完成传感器与处理器之间的高速、低功耗数据传输，确保大量图像信息稳定传递。

LP-11

内核层
Linux 系统中的 V4L2 框架与 Media Controller 子系统共同构建了灵活且强大的视频设备驱动架构。

算法层
ISP（图像信号处理器）通过一系列复杂的数学算法，校正色彩偏差、降噪、锐化等，弥补硬件局限，还原真实视觉效果。

深入理解上述各环节的工作原理及其协同机制，是迈向嵌入式视觉系统核心技术领域的关键一步。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝