心血管疾病是全球死亡的主要原因。
新模型以几乎 99% 的准确率检测冠心病。
具有隐藏层的 DNN 显示出比其他模型更高的准确性。
根据世界卫生组织 (WHO) 的数据,心血管疾病 (CVD) 是全球死亡的主要原因,2019 年有 1790 万人死亡[1]。WHO 风险模型确定了许多不同的变量作为 CVD 的风险因素,包括关键的预测变量:年龄、血压、体重指数、胆固醇和烟草使用。从历史上看,这些因素使得心血管疾病几乎不可能以任何有意义的准确度进行预测。Kondeth Fathima 和 ER Vimina [2] 发表在ICISS 2021智能可持续系统 论文集上的一项新研究使用具有四个隐藏层 (HD) 的深度
神经网络 (DNN) 预测 CVD,准确率高达 99%。
什么是具有隐藏层的 DNN?
神经网络模型近年来走在了前沿,因其卓越的预测能力而广受欢迎。已经开发了许多不同的深度学习技术,包括卷积神经网络(CNN)——“广泛用于对象识别和分类”和长短期记忆单元(LSTM),广泛用于检测网络流量中的异常。这项新研究使用了深度神经网络 (DNN),该网络以其对低和高数据变化的鲁棒性、对广泛应用的普遍性以及额外数据的可扩展性而闻名。
DNN 可以是单层或多层的,并被定义为“作用于功能的处理元素的互连组件”[2]。多层 DNN 中的附加计算层称为隐藏层 (HL);HL 通过许多周期重复一个过程。具有隐藏层的神经网络模型可以处理越来越复杂的信息,使其成为分析具有多种特征的数据的理想选择——例如心血管疾病数据。在对复杂的 CVD 风险因素进行建模时,隐藏层越多,层数越少的结果越好。该研究的目标是找到具有最佳隐藏层数的 DNN——在预测心血管疾病方面提供最佳准确度的 DNN。
方法
该研究作者使用了来自加州大学欧文分校机器学习存储库 [3] 的两个数据集,Statlog和Cleveland。这两个数据集都以其数据源的可靠性而闻名。在对数据使用探索性
数据分析后,研究人员根据两个数据集的准确性性能选择了最佳模型。
研究了三种不同的神经网络模型,每种模型都有不同的层数和神经元。在对不同数量的隐藏层进行试验后,研究人员选择了一个具有一个输入层 (IL)、四个 HL 和一个输出层 (OL) 的层。
合成少数过采样技术 (SMOTE) 增加并平衡了不平衡数据集中的病例数量,其中包含不成比例的健康和不健康病例。均值插补替换缺失数据,数据集分为训练集(70%)和测试集(30%),其中健康和不健康病例比例相等。使用神经网络中的梯度下降优化 13 个特征的权重,并使用标准化对数据进行缩放。
结果
用于评估模型的不同指标,包括准确性、敏感性、特异性、F1 分数、错误分类、ROC 和 AUC。结果是一个四 HL DNN 以“有希望的结果”检测了冠心病。所选模型在 Statlog 数据集上的准确度为 98.77,在 Cleveland 数据集上的准确度为 96.70。