医疗保健的顶级AI算法
近年来,人们广泛讨论了AI在医疗保健方面的好处 ,直到将来有可能用AI代替人类医生。
这样的讨论和当前的AI驱动项目都表明,
人工智能可以通过多种方式用于医疗保健:
AI可以从大量的医疗数据中学习特征,然后使用获得的见解来协助临床实践进行治疗设计或风险评估;
AI系统可以从大量患者中提取有用的信息,以帮助实时推断健康风险预警和健康结果预测;
AI可以做重复的工作,例如分析测试,X射线,CT扫描或数据输入;
人工智能系统可以帮助减少人类临床实践中不可避免的诊断和治疗错误;
人工智能可以通过提供来自期刊,教科书和临床实践的最新医学信息来帮助医生,以提供适当的患者护理;
AI可以管理病历并分析单个机构和整个医疗系统的绩效;
人工智能可以基于对突变和与疾病的联系的更快处理,帮助开发精密医学和新药;
人工智能可以提供数字咨询和健康监测服务,其程度可以称为“数字护士”或“健康机器人”。
尽管AI在临床研究和医疗保健服务中的应用多种多样,但它们仍可分为两大类:结构化数据的分析,包括图像,基因和生物标记,以及非结构化数据的分析,例如便笺,医学期刊或患者调查补充结构化数据。前一种方法由机器学习和
深度学习算法提供支持,而后一种方法则基于专门的自然语言处理实践。
图1.医疗保健中的
机器学习和自然语言处理。
机器学习算法
机器学习算法主要从数据中提取特征,例如患者的“特征”和感兴趣的医学结果。
图2.医学文献中最流行的机器学习算法。通过在PubMed上搜索医疗保健中的机器学习算法来生成数据
长期以来,医疗保健中的AI主要由逻辑回归控制,这是需要对事物进行分类时最简单,最常用的算法。它易于使用,快速完成且易于解释。但是,在过去的几年中,情况发生了变化,SVM和
神经网络已处于领先地位。
支持向量机
支持向量机(SVM)可以用于分类和回归,但是该算法主要用于需要通过超平面将数据集分为两类的分类问题。目的是选择具有最大可能余量或超平面与训练集中任意点之间的距离的超平面,以便可以正确分类新数据。支持向量是最靠近超平面的数据点,如果将其删除,则会更改其位置。在SVM中,模型参数的确定是一个凸优化问题,因此解决方案始终是全局最优的。
图3.支持向量机
SVM在临床研究中被广泛使用,例如,识别成像生物标志物,诊断癌症或神经系统疾病,并且通常用于分类来自不平衡数据集或具有缺失值的数据集的数据。
神经网络
在神经网络中,结果和输入变量之间的关联通过预先指定的功能的隐藏层组合来描述。目的是通过输入和结果数据估计权重,以使结果与其预测之间的平均误差最小。
图4.神经网络
神经网络已成功地应用于医学的各个领域,例如诊断系统,生化分析,图像分析和药物开发,并通过乳腺X线摄影图像预测了乳腺癌的教科书示例。
逻辑回归
Logistic回归是用于模拟二分结果的基本且仍很流行的多变量算法之一。当存在多个解释变量时,使用逻辑回归获得比值比。该过程与多元线性回归相似,不同之处在于响应变量是二项式的。它显示了每个变量对观察到的感兴趣事件的优势比的影响。与线性回归相反,它通过分析所有变量的关联来避免混淆效应。
图5. Logistic回归
在医疗保健中,逻辑回归被广泛用于解决分类问题和预测特定事件的可能性,这使其成为进行疾病风险评估和改善医疗决策的有价值的工具。
自然语言处理
在医疗保健中,很大一部分临床信息是以叙述性文字的形式出现的,例如体格检查,临床实验室报告,操作说明和出院摘要,这些内容是结构化的,如果没有特殊的文字处理方法,对于计算机程序来说是难以理解的。自然语言处理解决了这些问题,因为它基于历史数据库在临床笔记中标识了一系列与疾病相关的关键字,这些数据库在验证后输入并丰富了结构化数据以支持临床决策。
特遣部队
提取关键字的基本算法,TF-IDF代表 术语频率与文档频率成反比。TF-IDF权重是统计单词对集合或语料库中文档重要性的度量。重要性与单词在文档中出现的次数成正比地增加,但是被单词在语料库中的出现频率所抵消。
图6. TF-IDF
在医疗保健领域,TF-IDF用于在观察研究中发现患者的相似性,以及从医学报告中发现疾病的相关性并在数据库中找到顺序模式。
朴素贝叶斯
朴素贝叶斯分类器是用于文本分类的基线方法,是将文档判断为属于一个类别还是另一个类别的问题。朴素贝叶斯分类器假定类中某个特定功能的存在与任何其他功能的存在无关。即使这些特征是相互依存的,所有这些属性也独立地有助于属于某个类别的可能性。
图7.朴素贝叶斯分类器
它仍然是最有效和高效的分类算法之一,已成功应用于许多医疗问题,例如医疗报告和期刊文章的分类。
词向量
单词向量或word2vec被认为是NLP的一项突破,它是用于生成单词嵌入的一组相关模型。本质上,word2vec模型是浅浅的两层神经网络,可重构单词的语言环境。Word2vec从文本中产生多维向量空间,每个唯一的词都有一个对应的向量。以共享上下文的单词彼此紧邻的方式,将单词向量定位在向量空间中。
图8.单词向量
词向量用于生物医学语言处理,包括相似性发现,医学术语标准化和发现疾病的新方面。
深度学习
深度学习是经典神经网络技术的扩展,简单来说,它是具有许多层的神经网络。与传统的ML算法相比,深度学习具有更多的功能,可以探索数据中更复杂的非线性模式。作为每个模块的流水线都是可训练的,深度学习代表了一种可扩展的方法,该方法可以从原始数据中自动提取特征。
在医疗应用中,深度学习算法成功地解决了机器学习和自然语言处理任务。常用的深度学习算法包括卷积神经网络(CNN),递归神经网络,深度信念网络和多层感知,其中CNN自2016年起一直领先。
卷积神经网络
CNN是为处理高维数据或具有大量特征的数据(例如图像)而开发的。最初,如LeCun所建议,CNN的输入是图像上的标准化像素值。卷积网络受到生物学过程的启发,其神经元之间的连接方式类似于动物视觉皮层的组织,单个皮质神经元仅在感受野的有限区域内对刺激做出反应。但是,不同神经元的感受野部分重叠,因此它们覆盖了整个视野。然后,CNN通过在卷积层中加权并在子采样层中采样来传输图像中的像素值。最终输出是加权输入值的递归函数。
图9.卷积神经网络
最近,CNN已在医疗领域成功实施,以协助疾病诊断,例如皮肤癌或白内障。
递归神经网络
在医疗保健领域中,第二种流行的RNN代表利用顺序信息的神经网络。RNN之所以称为递归,是因为它们对序列的每个元素执行相同的任务,并且输出取决于先前的计算。RNN具有一个“内存”,可捕获有关已往后几步计算出的内容的信息(稍后会详细介绍)。
图10.递归神经网络
RNN在NLP中极为流行, 也是一种预测临床事件的有效方法。
直到最近,人工智能在医疗保健中的应用主要解决了几种疾病:癌症,神经系统疾病和心血管疾病是最大的疾病。当前,AI和NLP的发展,尤其是深度学习算法的发展,已经使医疗保健行业从数据流管理到药物发现,转向在多个领域使用AI方法。
1