全部版块 我的主页
论坛 休闲区 十二区 休闲灌水
3389 5
2016-11-10

医疗革命.jpg

书名:医疗革命——医学数据挖掘的理论与实践

丛书名:CDA数据分析师系列丛书

作者:邵学杰

ISBN 978-7-121-29867-7

出版年月:2016.9

定价:49

页数:192

开本:16

字数:308

本书将于2016年11月11日-12日在公众微信号“经管之家论坛”举行赠书活动。

内容提要

本书以数据挖掘与模式识别的七大原理在临床医学中的运用案例为切入点,系统而全面地介绍了医学数据挖掘的基本方法与原理,对数据分析的常用算法进行了通俗易懂的讲解。本书最大的特色是采用了案例分析与实证的方法,每一个原理、算法都在案例讲解中生动地体现出来。更重要的是,本书对临床医学的数据挖掘与模式识别技术进行了开创性、系统性的讨论,用案例展现了数据挖掘技术如何与临床医学相结合,为广大的医生、医学数据挖掘工作者提供了很实用的技术示范、理念导入、系统思考。

本书所有概念的讲解基本结构为原理讲解与案例实操的二元结构,兼顾初学者与专业人士的需要。本书重点探讨了数据挖掘技术如何与临床医学深度融合,如何运用现代的数据挖掘理念、模式识别与机器学习的基本方法解决临床科研中的应用问题,为广大的科研型临床医生提供助力,为广大的数据分析人员找到行业应用的范例,为广大初学者提供努力学习的方向;更重要的是在这个大数据时代,我们可以亲自见证数据技术是如何改变并深刻影响着临床医学的科研与教学的。

目录

1  数据分析与数据挖掘的力量 1

1.1 葡萄牙医生解决世界新生儿出生缺陷的故事   2

1.2 医学数据挖掘的主要定义   5

1.2.1  数据挖掘的定义       5

1.2.2  医学数据挖掘的故事       5

1.3 医学数据模式识别的七大原理与案例讲解      6

1.3.1  什么是模式识别       6

1.3.2  7个小故事 7

1.4 临床医学领域的机器学习与人工智能      12

1.5 神经元网络的基本原理      13

2  临床医学的数据挖掘    20

2.1 房颤与肾功能关联现象的故事   21

2.2 支持向量机的算法原理与应用   30

2.2.1  一个故事的开场白   30

2.2.2  支持向量机的主要特点   31

2.2.3  支持向量机的应用案例   39

2.3 疾病规律与统计学革命      43

2.3.1  肝胆外科的统计学故事   43

2.3.2  双盲实验的诞生       44

2.3.3  几则很有趣的医学统计学故事       47

2.4 老年肺癌研究      50

2.4.1  数据的抓取与来源   50

2.4.2  癌症与老龄化的相关性分析   51

2.4.3  老年人肺癌手术适用性评估关键词频率       53

2.4.4  老年肺肿瘤的数据分析   54

2.4.5  英国肺癌患者38年来死亡率研究  59

2.4.6  老龄肺癌死亡率数据的三维分析   59

2.5 临床医学与数据挖掘的边缘学科      62

2.5.1  几个实例   62

2.5.2  医学统计学与医学数据挖掘的区别       69

2.5.3  有关数据挖掘是边缘学科的几个实例   72

2.5.4  一个医学数据挖掘的案例       74

3  临床医学与数据技术的深度融合 90

3.1 二型糖尿病与胰腺癌的故事      91

3.2 Cox回归的基本原理与应用       94

3.2.1  Cox回归的基本原理 94

3.2.2  晚期肺癌伴脑转移患者的预后多因素Cox回归   95

3.2.3  本案例的几点启示   100

3.3 医学数据分析中的故事      101

3.4 聚类的临床医学意义   103

3.4.1  聚类算法的基本定义       103

3.4.2  临床医学数据挖掘中聚类的意义   104

3.4.3  案例   112

3.5 贝叶斯算法的应用案例      113

3.5.1  一个流传甚广的故事       113

3.5.2  一个贝叶斯算法的医学案例   114

4  临床医学的模式识别    126

4.1 模式识别是什么   127

4.1.1  定义   127

4.1.2  临床医学模式识别的故事       127

4.2 基线静息心率的故事   130

4.3 决策树算法   132

4.4 最大期望(EM)算法 135

4.5 算法的规律与临床医学的本质   140

4.5.1  算法的本质是什么   140

4.5.2  数据挖掘中医学的本质   141

5  医学数据挖掘的常用工具    146

5.1 SAS挖掘软件运用案例      147

5.2 Weka软件介绍     150

5.3 Matlab案例   152

5.4 R语言案例   162

5.5 临床医生如何用好挖掘工具      164

6  专业级医学SCI论文中的统计工具    169

6.1 医学数据中的T值与P值故事   170

6.2 K线图的故事      172

6.3 国际顶级期刊上的数据技术      174

6.4 SCI荟萃分析中的统计学工具   180

6.4.1  研究对象及入选标准       181

6.4.2  统计学处理       181

前言

Big Data(大数据)在这几年突然火红于日常生活的各项领域中,连临床医疗也不例外,其实早期就存在许多通过数据来佐证或者分析预测结果的例子,但是当时在大多数的情况之下,统计运算不够快速成为了资料分析的一大限制,因此大多数资料是被临床研究工作者们放在一边而从未思考该如何运用的。伴随着信息科技的进步以及发达,能为我们所分析的数据将呈现爆炸性的成长,因此人们能从数据中学习的知识会更加丰富。和其他科学领域相比,需要透过大量临床试验的医学领域算是进步较缓慢的学科。管仲曾说过:“不明于数欲举大事,如舟之无楫而欲行于大海也。”意思是说在不清楚相关数据的情况下想做大事,无疑是没有桨的船想航行于汪洋大海中一样。也就是说,在医疗大数据的时代下,“dry lab”的医疗数据研究将会是协助医学领域快速进步的一大重要关键。本书通过大量临床医学的实例,由浅入深地介绍各项数据分析以及数据挖掘的方法和工具,将大量的临床医学数据化繁为简。相信无论是在校的学生或是临床研究者,本书都将会是学习或科研路上不可或缺的好伙伴。

       谢邦昌

台北医学大学管理学院及大数据研究中心  院长/主任

中华市场研究协会理事长

中华资料采矿协会荣誉理事长

前    言

在医学大数据时代,数据技术带来了临床医学科研的革命性进步。本书通过对医疗数据挖掘的基本理论的阐述,将现代统计学与数据挖掘技术有机结合,讲述了大量的医学数据挖掘的案例,提供了大量的医学数据挖掘的实操方法。医学数据模式识别的七大原理与案例讲解是本书具有独创性的对医学数据技术的全面概括与总结,七大原理的首次提出也是医学数据挖掘技术上升到系统理论的重要实践与创新。无论是预测性建模、解释性建模、知识性建模与描述性建模,抑或是序列模式建模、依赖关系建模、异常模式建模,模式识别的类型规律跃然纸上,为专业人士或初学者厘清了数据挖掘与模式识别的基本类型特征。

不仅如此,本书选取的大量的医学数据挖掘案例为本书的实用性增加了学以致用的特色,凡认真阅读本书的读者都会从理论与实操两个层面全面、系统、实用地了解医学数据挖掘的原理与方法。本书以胰腺癌与二型糖尿病的关联规则、乳腺癌图片智能识别的挖掘算法、心电信号大数据的人工智能识别、低位前切保肛术的荟萃分析、贝叶斯网络预测高血压患者心血管风险、基线静息心率评估心血管事件、老年肺癌研究的荟萃分析等实用数据技术为切入点,使初学者能够掌握医学数据挖掘的基本理论与方法,因此是一本很好的入门级教科书。

对于资深的临床医生、医学博士、论文写作者而言,本书也是一本很好的案例参考书。特别是对于医学科研课题而言,本书提供了强大的实际操作技术培训与案例讲解,从顶级的国际期刊《自然》、《细胞》、《柳叶刀》等杂志选取经典的数据分析案例,用生动的方法让读者可以学到医学论文中数据、图表、算法的实际使用方法;因而对于专业人员而言,本书又是一本很好的资深级别的专业用书。

我们相信,无论您是初学者还是资深的专业人士,本书都将为您提供极大的可读性、趣味性和科学性。

精彩节摘医学数据挖掘的故事

医学数据挖掘一般是指从大量的医学数据中通过算法搜索来认识隐藏于其中疾病新规律的过程。

今天这里要讲述一个关于肠道菌群与心血管疾病关联性的故事。在微生物学诞生后不久,人们就发现,在动物的消化道中存在有不少微生物。例如在牛、羊、兔等食草动物的胃或盲肠中,就存在大量以细菌为主的微生物群体。由于食草动物摄入的植食性饲料中,纤维素、半纤维素等多糖难以依靠动物体自身分泌的酶液消化,而微生物群体中包含的纤维素消化菌、半纤维素消化菌等可以较好地将多糖转化为低聚糖和寡糖,从而促进对这些营养物质的吸收。

随着医学的发展,人们也注意到,在人类的肠道,尤其是结肠(也就是平常所说的大肠)中,也存在着大量微生物。这些以细菌为主的微生物种类极多,数量极大。肠道菌群并非是生来就有的,它们实际上是“外来户”。在母体子宫内,胎儿所处的是一个几乎无菌的环境,因此胎儿肠道内也是无菌的。当胎儿出生之后的几天内,细菌通过分娩时阴道物质摄入、哺乳时的口腔摄入以及空气吸入等途径进入新生儿体内,并在肠道内定植,形成新生儿最初的肠道菌群。随着婴儿的成长,肠道菌群的种类结构逐渐趋于稳定,最终形成成熟的肠道菌群。这些微小的生物群体就这样不知不觉地定居到人体之内,悄无声息地与主人相随一生。

近期的多项研究表明,肠道菌群和人体的代谢疾病具有重要关系。肠道菌群失衡可能是造成肥胖、糖尿病等多种代谢异常的重要原因之一。造成代谢异常的主要原因,是失衡的肠道菌群产生的脂多糖等内毒素进入人体,被免疫细胞识别后产生多种炎症因子,使得机体进入低度炎症状态,从而产生代谢异常。例如,若长期进食高脂、高糖食物,可造成肠道菌群中条件致病菌比例增加,而共生菌比例下降,从而使得食物中摄取的能量更容易转化为脂肪累积于皮下,造成肥胖。此外,低度炎症还能促使机体对胰岛素响应程度下降,造成胰岛素抵抗,进而发展为糖尿病。

这些医学观察的结论完全得益于数据挖掘技术的进步,医生们从医治经验中发现患有肠道疾病的人往往也同时患有心血管疾病。一开始医生们并没有注意到这个现象,当越来越多的病例记录了同一现象时,医生们开始怀疑两者之间的关联性。但是怀疑代替不了科学结论,需要定量化的数据支持,越来越多的病例数据汇总后经过关联规则算法最终找到了大量的支持病例,最终现代医学解开了这个秘密。肠道菌群与中风,原本风马牛不相及的两个病种终于确立了因果关系。

有意思的是,最新的医学数据挖掘表明,肠道菌群的数量分布居然与抑郁症有关联,医学科学家正在试图解开这个秘密。

这个故事生动地表达了医学数据挖掘的魅力与能量。利用大量的临床医学数据发现新的医学疾病规律正是数据挖掘在医学,特别是临床医学领域的巨大意义。

作者简介

邵学杰,我国医学大数据概念提出的实践者与先行者,2011年与国家卫生计生委医政医管局医疗质量监测中心HQMS合作,首度提出建设“中国医疗云”的设想;我国医学图像人工智能识别的先行者,于2012年建立第一家民营人工智能与深度学习研究机构,在医学图像的人工智能与机器深度学习方面有丰富的实操经验;医学数据挖掘的先行者,他领衔的研究团队在研究胰腺癌与二型糖尿病的关联规则,基线静息心率与心肌缺血事件的关联性,低位保肛手术的随访大数据研究中取得重要进展。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-11-10 16:16:18

葡萄牙医生解决世界新生儿出生缺陷的故事

    每年,全球大约有数以百万计的新生儿缺陷患者,原因包括遗传的、环境的、病毒性的,其中有高达 25%以上的新生儿先天缺陷找不到明确的原因。虽然超声医学、分子遗传检测技术已经有长足的进步,但依然有 8%左右的新生儿先天缺陷在世界某些地区找不到原因,葡萄牙医生用数据挖掘方法的解决方案对我们很有启发。

葡萄牙医生首先以全球各诊所新生儿出生记录数据为基础,包括出生年月日、性别、家庭住址三项基础统计数据,然后用空间地理信息做匹配关联分析,就是分析出生婴儿与空间地理位置的关联性,结果如下图所示。

新生儿缺陷.png

资料来源:葡萄牙医生 2014 年全球各大洲新生儿缺陷抽样调查报告

这项研究采用了最简单的单变量模型:变量是缺陷新生儿的出生地址,方法是采用全球抽样的均匀分布法,确保抽样数据的代表性。

抽样方法的正确性是指抽样的代表性和随机性,代表性反映样本与批质量的接近程度,而随机性反映检查批中单位产品被抽入样本纯属偶然,即由随机因素所决定。在对总体质量状况一无所知的情况下,显然不能以主观的限制条件去提高抽样的代表性,抽样应当是完全随机的,这时采用简单随机抽样最为合理。在对总体质量构成有所了解的情况下,可以采用分层随机或系统随机抽样来提高抽样的代表性。在采用简单随机抽样有困难的情况下,可以采用代表性和随机性较差的分段随机抽样或整群随机抽样。这些抽样方法除简单随机抽样外,都是带有主观限制条件的随机抽样法。通常只要不是有意识地抽取质量好或坏的产品,尽量从批的各部分抽样,都可以近似地认为是随机抽样。

1.单纯随机抽样(simplerandom sampling)

将调查总体全部观察单位编号,再用抽签法或随机数字表随机抽取部分观察单位组成样本。

优点:操作简单,均数、率及相应的标准误计算简单。

缺点:总体较大时,难以一一编号。

2.系统抽样(systematicsampling)

该方法又称机械抽样、等距抽样,即先将总体的观察单位按某一顺序号分成 n 个部分,再从第

一部分随机抽取第 k 号观察单位,依次用相等间距,从每一部分各抽取一个观察单位组成样本。

优点:易于理解、简便易行。

缺点:总体有周期或增减趋势时,易产生偏性。

3.整群抽样(clustersampling)

总体分群,再随机抽取几个群组成样本,群内全部调查。

优点:便于组织、节省经费。

缺点:抽样误差大于单纯随机抽样。

4.分层抽样(stratifiedsampling)

先按对观察指标影响较大的某种特征,将总体分为若干类别;再从每一层内随机抽取一定数量的观察单位,合起来组成样本。有按比例分配和最优分配两种方案。

优点:样本代表性好,抽样误差减少。

以上四种基本抽样方法都属单阶段抽样,实际应用中常根据实际情况将整个抽样过程分为若干阶段来进行,称为多阶段抽样。

葡萄牙医生在本故事中采用了分群与分层抽样调查相结合的方法,按五大洲分群抽取,每个洲又按历史高发地区分层抽取。整群的聚类(cluster)是数据挖掘技术上一个很重要的概念,把某维度属性相近的实例聚类是数据技术最基础的方法;聚类后,距离太远的数据就是异常值。对数据处理的常规方法第一步就是聚类,把某些属性相近似的数据聚类后就可以进一步分析它们之间的关系,

数据的聚类可以做回归(预测) ,数据的离散可以做预警(异常值) 。

如下图所示,数据之间的关系可以从图形上表示出来,因此数据挖掘完全可以可视化地表现出来。就是说数据之间是有空间分布关系与距离的,用空间分布关系来表示数与数之间的关系,是现代数学的重要特征。

医疗革命.png

本故事中,葡萄牙医生的重要发现是:

① 欧洲大量新移民聚类中产生了新生儿缺陷高发的现象,这一数据甚至超过了传统落后地区非

洲的新生儿出生缺陷率。

② 伊拉克战争、叙利亚战争、也门内战导致的难民大量涌入欧洲,人口的大规模迁徙改变了欧洲的新生儿人口健康状况。

就这样,葡萄牙医生用了一个简单的变量(婴儿出生地) ,代入了一个简单的分析框架——空间地理坐标与新生儿缺陷的关联性,用抽样方法获取数据,最后导出了近年来欧洲新生儿缺陷增加的主要原因:大规模移民难民潮。其中一个典型调查发现西班牙边境地区一个废弃的化学工厂是外来移民长期居住后新生儿缺陷发生的重要原因。

这是一个用数据进行知识发现(Knowledge-Discoveryin Databases, KDD)的故事也是一个典型的流行病监测模型。数据库知识发现是数据挖掘最核心的意义。计算机时代,大量的数据被存放在数据库中,而不管是关系型数据库还是非关系型数据库,大量数据存储的成本都非常高昂;尤其在中国的三甲医院中,每天都有大量的门诊与住院数据产生,其中 80%是图像数据。一个普通的三甲医院每年产生大约 15TB~20TB 的新数据,这些数据中包含着许许多多疾病的新规律与知识发现,而用传统的统计学方法,用传统的手工或计算机方法已经无法处理或者无法准确地处理。这就是现代大数据技术产生的背景,包括传统的统计学、计算机技术、最优化分析技术、机器学习与人工智能、在线分析与检索技术。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-11-10 16:31:07
看看,谢谢分享,好人啊
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-1-4 08:08:13
有电子版么?特想学习。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-1-4 08:38:25
zhangliansheng 发表于 2017-1-4 08:08
有电子版么?特想学习。
这是一本新书,暂时应该没有电子版的
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-5-21 22:10:28
谢谢分享!!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群