
在人体运动分析的研究中,步态信息蕴含着个体运动能力与健康状况的关键线索。鞋垫式传感器因其高度贴合日常行走行为、可连续完整采集数据的特性,已成为获取步态信息的核心工具。从原始信号采集到生成可用于健康评估或运动指导的有效数据,算法在其中扮演着“信号解码器”的关键角色。本文将围绕鞋垫传感器的数据获取机制,按照数据预处理、特征提取与模式识别的技术流程,系统阐述步态
数据分析中的核心算法逻辑。
一、步态数据的采集原理
鞋垫传感器的设计理念在于将柔性传感元件嵌入常规鞋垫结构中,实现在自然行走过程中对足底压力及肢体动态的实时监测。当前主流技术主要采用压阻式、电容式和压电式三类传感方式,其中压阻式因具备成本低、灵敏度适中等优势,应用最为广泛。此类传感器由导电复合材料构成感应单元,当人体行走时,足底各区域施加的压力引起材料电阻变化,而该电阻变化与压力大小之间存在确定的函数关系。通过电路系统将电阻值转换为电压信号,即可获得原始的足底压力序列。
为了实现全足底覆盖,传感器通常依据足部解剖分区进行布局,涵盖前掌、足弓、后跟等关键部位,部分高精度设备甚至细化至脚趾区域,传感器数量一般介于4至32个之间。此外,集成于鞋垫中的三轴加速度计与陀螺仪可同步采集步态过程中的线性加速度和角速度信息,辅助判断下肢运动姿态。所有传感单元通过柔性线路连接至中央采集模块,经模数转换(AD)处理后,以数字形式通过蓝牙或WiFi传输至终端设备,最终形成包含压力、加速度、角速度等多维度信息的原始步态数据集。
二、步态数据预处理方法
原始采集的数据常受到传感器噪声、人体动作随机性以及外部环境干扰的影响,表现出波动剧烈、含大量无效点等问题,因此必须经过系统的预处理以提升数据质量。该阶段主要包括三个核心环节:数据清洗、去噪处理与数据标准化,各步骤协同作用,为后续分析提供可靠基础。
1. 数据清洗
此步骤旨在识别并修正异常值与无意义数据段。常见异常来源包括传感器瞬时故障引发的突变读数,以及行走过程中非典型接触导致的孤立峰值。常用检测方法包括3σ准则与箱型图法。3σ准则基于正态分布假设,若某数据点x与其均值μ的偏差超过3倍标准差σ(即 |x - μ| > 3σ),则判定为异常;箱型图法则利用四分位距IQR = Q3 - Q1(Q1为下四分位数,Q3为上四分位数),将小于 Q1 - 1.5×IQR 或大于 Q3 + 1.5×IQR 的数据视为离群值。
对于识别出的异常点,并不直接删除,而是采用线性插值方式进行填补:设前后两个有效数据点为 (x, y) 与 (x, y),则缺失点x对应的补全值按公式 y = y + (x - x) × (y - y)/(x - x) 计算得出,确保时间序列的连续性。同时,还需剔除静止状态下的无效数据段——通过判断加速度幅值是否持续低于设定阈值(通常取0.2g,g为重力加速度)来筛选出真正意义上的动态行走片段。
2. 去噪处理
该步骤用于消除高频噪声,如电子器件固有噪声或运动抖动带来的干扰。常用方法包括滑动平均滤波与小波变换滤波。滑动平均法通过对当前点前后共N个相邻点求均值得到平滑结果,其表达式为:
y = (x
in + x
in+1 + … + x
i + … + x
i+n1 + x
i+n) / (2n + 1),
其中窗口大小 N = 2n + 1,通常根据采样频率设置,例如100Hz数据常选用N=5。该方法计算高效,能有效抑制高频扰动,但可能造成信号边缘模糊。
相比之下,小波变换滤波具有更高的保真度。它通过多尺度分解将信号拆分为不同频带成分,选用db4小波作为基函数,一般分解至3~5层。对高频细节系数实施软阈值处理(即当系数绝对值小于阈值λ时置零,大于时保留并减去λ),再执行小波逆变换重构信号。这种方法既能有效去除噪声,又能较好保留步态周期中的关键转折点,是目前较为先进的去噪策略。
3. 数据标准化
由于不同类型传感器输出量纲不同(如压力单位kPa,加速度单位m/s),需进行统一归一化处理,使各维度数据处于相近数量级,避免某些特征在建模中被过度放大。常用方法有两种:
- **归一化(Min-Max Scaling)**:使用公式 x’ = (x - x_min)/(x_max - x_min),将数据映射至 [0,1] 区间,适用于已知极值范围且分布稳定的情况;
- **标准化(Z-score Normalization)**:使用公式 x’ = (x - μ)/σ,将数据转换为均值为0、标准差为1的标准正态分布,适合未知分布或近似正态的情形。
在实际步态处理中,通常对足底压力数据采用归一化处理,而对加速度与角速度数据采用Z-score标准化,从而保障后续特征提取与模型训练的公平性和稳定性。
三、步态特征提取算法
在完成高质量数据准备之后,下一步是从清洗后的信号中挖掘能够表征个体步态特性的关键指标。特征提取的目标是将原始高维时间序列转化为一组具有生物学意义或统计区分能力的低维参数,这些参数可服务于步态异常检测、身份识别、康复评估等多种应用场景。
在步态分析中,特征提取是将经过预处理的高维原始数据转换为低维且具备代表性的特征向量的关键步骤。所提取的特征应能够充分反映个体间的步态差异以及运动过程中的动态特性。依据特征来源的不同,可将其划分为三类:时域特征、频域特征以及时频域特征,每一类从不同维度揭示步态信号的本质属性。
时域特征直接来源于时间序列数据,具有计算简便、物理含义清晰的优势,是步态特征提取的基础部分。常见的时域统计指标包括:
- 均值(μ = (1/N)Σk=1Nxk):用于衡量步态信号的整体强度水平,例如足底压力的平均值;
- 标准差(σ = √[(1/N)Σk=1N(xk - μ)2]):反映信号波动的离散程度,可用于评估步态稳定性;
- 峰值(x_max = max(x,x,…,xN)):对应于足底最大压力点,有助于识别步态周期中的关键发力区域;
- 峭度(K = (1/N)Σk=1N(xk - μ)4/σ4):描述信号分布的尖锐程度,异常值可能提示存在步态异常;
- 波形因子(S = x_rms/x_avg),其中x_rms为均方根值,x_avg为绝对值均值,体现信号波形的饱满程度。
考虑到步态具有明显的周期性,还需提取与周期相关的参数,如步态周期持续时间、支撑相占比和摆动相占比等。通过检测加速度信号中的波峰间隔,可以确定一个完整步态周期的起止点,进而计算上述周期性特征。
频域特征通过对时域信号进行傅里叶变换,将其映射到频率空间,从而揭示步态信号的频率组成规律,特别适用于分析其周期性行为。具体方法是对预处理后的离散时间序列xk(k=1,2,…,N)执行快速傅里叶变换(FFT),得到频率域表示X(f),其公式为:
X(fm) = Σk=1Nxke^(-j2πfmkT),其中T为采样周期,fm = m/(NT),m=0,1,…,N/2。
基于变换结果可提取以下典型频域特征:
- 主频(f):功率谱密度最大的频率成分,反映步态动作的主要节奏;
- 频谱重心(f_c = Σmfm|X(fm)| / Σm|X(fm)|):表征频谱能量集中位置;
- 带宽(B = f - f),定义为累积功率谱分布25%与75%处对应的频率之差,用以衡量频率分布的广度。
这些特征在区分正常与异常步态方面具有显著效果。例如,帕金森病患者的步态主频通常低于健康人群,同时其频谱带宽更窄,体现出节奏单调、灵活性下降的特点。
为了应对非平稳步态信号的复杂变化,时频域特征被广泛采用,它结合了时间和频率两个维度的信息,能更全面地刻画信号的局部动态特性。其中,小波包变换是当前应用最为广泛的时频分析手段之一。该方法在传统小波变换基础上进一步对高频段进行细分,提升了高频部分的分辨率。
实施过程中需选择合适的小波基函数(如db6)及分解层数(一般为4层),对原始步态信号进行多层小波包分解,获得各子频带的系数ci,k。随后计算每个频段的能量Ei = Σk|ci,k|,并将所有频段能量归一化,构成能量特征向量,作为后续识别的输入。
此外,希尔伯特-黄变换(HHT)也是一种有效的非平稳信号分析工具。该方法首先利用经验模态分解(EMD)将信号自适应地分解为若干本征模态函数(IMF),再对每个IMF进行希尔伯特变换,生成高分辨率的时频谱图。从中可提取瞬时频率、能量熵等动态特征,精确捕捉步态信号在短时间内发生的突变或过渡状态。
模式识别是步态数据分析的最终环节,旨在根据提取出的特征向量完成对步态类型的分类与判断,主要应用于身份认证、病理诊断以及运动能力评估等场景。根据是否依赖标注样本,模式识别算法可分为监督学习与无监督学习两大类别,实际应用中需结合任务目标合理选择。
支持向量机(SVM)是一种在步态识别中广泛应用的监督学习模型,尤其适合小样本条件下的分类任务。其核心思想是寻找一个最优超平面,使得不同类别的特征向量之间具有最大分类间隔。对于线性可分情况,在满足约束条件yi(w·xi + b) ≥ 1(i=1,2,…,N,yi为标签,w为法向量,b为偏置项)的前提下,最小化目标函数||w||/2。
当面对非线性可分的步态数据时,SVM借助核函数(如径向基核K(xi,xj) = exp(-γ||xi - xj||))将原始特征映射至高维空间,使其在新空间中变得线性可分。该方法在临床步态异常检测中表现突出,例如能有效区分关节炎患者与健康个体的行走模式,分类准确率普遍超过90%。
在复杂步态模式识别领域,人工神经网络(ANN)因其出色的非线性拟合能力而被广泛采用,其中卷积神经网络(CNN)与循环神经网络(RNN)的应用尤为普遍。CNN擅长处理具有空间结构特征的步态信息,例如全足底压力分布图像。它通过卷积层捕获局部空间模式,利用池化层压缩特征维度,并借助全连接层完成最终分类任务。该方法能够自动学习足底压力的空间分布规律,避免了繁琐的人工特征设计过程。
RNN及其优化变体——长短期记忆网络(LSTM),则更适用于具有时间序列特性的步态数据处理。这类模型通过内部的记忆单元有效捕捉步态信号中的时序依赖关系,缓解传统网络中常见的梯度消失问题,在步态周期检测和运动状态预测等任务中表现出优越性能。
以LSTM为基础构建的步态识别系统,可基于连续采集的加速度信号实现个体身份辨识,即使在不同行走速度下仍具备较强的鲁棒性,显著优于传统识别算法。
K-means聚类作为一种典型的无监督学习方法,常用于未标注步态数据的模式划分,尤其适合于未知类型步态异常的初步筛查。其核心流程包括:首先随机选定K个初始聚类中心;随后计算每个样本点到各个中心的欧氏距离(公式为:d(x,c?) = √Σ?(x? - c??)?,其中c?表示第i个聚类中心),并将样本归入距离最近的类别;接着更新每一类的中心为其成员样本的均值;重复上述步骤直至聚类中心稳定或达到预设的最大迭代次数为止。
为确定最优聚类数量K,通常采用肘部法则结合轮廓系数进行评估。轮廓系数反映聚类结果的紧密程度与分离程度,应选择使轮廓系数最大的K值。K-means算法具有较高的运算效率,能快速对大量步态数据进行自动分组,为后续临床诊断提供有价值的初步参考依据。[此处为图片2]
综上所述,基于鞋垫传感器的步态数据处理算法是实现从原始传感信号向实际应用转化的关键环节。整个处理流程涵盖数据采集、预处理、特征提取到模式识别等多个阶段,系统性地完成了对步态信息的深度解析。预处理环节确保数据质量,特征提取环节揭示数据内在特性,模式识别环节则推动数据价值的实际落地。三者协同作用,共同构建起完整的步态分析技术框架。
展望未来,随着传感器硬件性能的提升以及人工智能算法的持续演进,步态数据处理技术将朝着更高精度、更低计算开销和更强环境适应性的方向发展。一方面,多源传感器融合策略(如整合鞋垫传感器与惯性测量单元IMU)将进一步拓展数据的维度,为算法提供更丰富的输入信息;另一方面,轻量化深度学习模型的发展将促进算法在嵌入式设备上的高效部署,实现实时在线分析,助力步态监测技术在智能家居、远程健康监护及运动科学等场景中的广泛应用,为人机交互与健康管理提供坚实的技术支持。