2017年中国数据分析师行业峰会:大数据与生物医疗分会场(之一)
分会场1—大数据与生物医疗
时间:2017年7月29日 上午
地点:北京·中国大饭店
主持人:大家好!医疗分论坛现在开始。首先欢迎大家来参加2017数据分析师峰会,今年是第四届峰会,今年的会议有一个主会场,上午和下午都有分会场。我们这个论坛的主持人吴云霞老师,她是北京大学第三医院骨科秘书长,在医疗方面是很多学校的讲师,也是客座教授,有丰富的经验,接下来把话筒交给吴云霞老师。
吴云霞:大家早上好!大家既然来这个会场,一定是对医学感兴趣,2016年的时候我参加了数据分析师论坛,分享了一些医学的经验,我看到了很多的年轻人对这方面感兴趣,实际上还是比较迷茫。在今年大数据生物医学论坛上,大数据这么耳熟能详的词随着生物科技和生物技术的迅猛发展,生物医疗行业的大数据急剧膨胀,与其他行业不同的是生意医疗呈现的分散的、破碎的、低透明度,以及意义尚待解析的各种特征,时间的推移,生物医学数据不断地积累,数据价值虽然越来越重,但是如果挖掘出来,今天各位专家都会从不同的角度去解释。
首先请峰瑞资本早期项目负责人谭验,他关注的是生物科技与大数据方面的跨界投资,曾就职于Tamr,负责生物医疗公司的大数据整合解决方案设计以及公司国际业务。早前曾担任美东地区最大的华人创业商业组织的联合主席,在伯德研究所完成了生物信息博士的研究,并拥有了北京大学生物技术学士学位。掌声欢迎谭验总经理!
谭验:谢谢吴秘书长刚才的介绍。大家今天这么早过来,看得出来大家对人工智能、医疗数据特别感兴趣。我个人的经历是从一个医疗数据的创业者到现在成为早期投资人,从个人的视角分享一下从创业、投资的角度看到人工智能在医疗领域的应用。今天作为第一位演讲,抛砖引玉,从几个大的角度探讨一下。
我本人在峰瑞资本工作,我们公司2015年8月成立,是早期的VC基金。我们公司对于早期的技术投资非常重视,对科技类的投资非常重视。在生物医药领域,对于“AI+医疗”,或者说医疗数据比较看好。
大数据的定义:这个概念经过很多年大家都非常熟悉的,不多讲了。大概是4V的概念,数据量要足够多、种类足够多、生成的速度要快、数据的准确度要高。从医疗的角度来讲,数据量够大大家一直在探讨,从绝对数据量来说医疗数据并不算最大,但是从时间的维度来讲,从有电子病历开始,或者说有实验开始就有长期的积累。现在的医疗图像、病理图像产生的数据量本身也足够大。数据的种类多样,对于医疗来说有病理检测的数据、生活习惯的数据、基因测序数据导致的基因数据这样的各种各样新的数据,随着技术的进步而发展出来。生成速度足够快,对医疗来讲没有那么的明显,比如说在互联网上看到一个点击就会生成一个数据反馈到云端,大家用来做数据分析,对医疗来说这不是最重要的属性。新的概念叫数据的准确性,这对于医疗来说是非常重要的,2010年左右在波士顿的大数据会上提出这么一个概念,大数据当中如果有错误的数据进来,对于医疗来说非常重要,因为医疗本身对于数据的规范性、结构化等一系列的规则正在整合和建立过程当中,所以现在获得数据的准确性质量并不是特别的高,对于我们做的数据挖掘工作和继续学习工作有一定的挑战性。
阿里在2015年的时候数据研究中心给出了一张图,看一下所有的行业从大数据应用水平和数据量的大小的维度,看一下医疗大概是在什么样的环境中。大数据的应用和数据量的积累走在靠前的是互联网,这是毫无疑问的,互联网本身是高度信息化的行业。在互联网中天然的跟广告相关,所以用大数据技术的话是非常的深入行业。
简单总结一下,对于所有的行业我们怎么看?所有行业大数据发展有什么样的规律?我们会发现,一是数据量的储存越大的企业数据化的程度越高。因为存在大量的数据,数据本身肯定会产生价值,于是数据量越大的企业就可以更好的挖掘数据,Facebook很早以前就不删除任何的数据,所有的数据都会储存下来。二是互联网化程度越高的企业数据化程度越高,互联网程度越高的企业往往数据积累量越大,因为互联网天然的精准性要求对于数据进行挖掘产生更大的商业价值。三是数据变现越容易的企业数据化程度越高。像电信行业、金融行业,他们都会在大数据的应用水平上走的比较快,因为数据本身的变现或者数据本身的价值离商业变现更近,所以就会推动它进行数据化的进程。四是个性化需求越过的企业数据化程度越明显。个性化意味着对数据深入的分析,比如说精准营销、市场营销。
根据阿里的统计,看一下医疗。除了比较靠前的互联网、金融,个性化程度比较高的电信、市场营销,政府是很大的数据积累点。当然,像政府云、政务大数据正在开始运用大数据的技术。传统行业中的医疗数据相对于传统行业来说数据积累量比较大,但是数据的应用水平排在中间的位置。看下来,医疗数据量储存达到一定程度的行业。数据变现本身在国内看起来不是那么容易,数据应用水平没有那么强。医疗天生是个性化非常强的行业,前几年兴起的精准医疗和个性化治疗,因为每个人的身体状态、生活环境、基因不同,所以每个人对医疗的要求,或者医疗对他的干预不同,相信数据化驱动医疗是一个大趋势。
跟医疗相关的行业包括医疗、医药、医学研究,抽象的分成四个象限,通过数据来源能够产生什么样的应用,或者什么样的应用会建立在数据来源之上。
首先,对于医疗或者医药行业来说最大的比重是国际化的大药厂,有创新药和创新疗法动力的公司,也就是制药企业和生命科学企业。
第二是临床决策,比如说做的临床治疗干预的手段、电子病历、医疗影象、基因测序的数据,都会成为临床角色和临床应用的数据来源。
第三是医疗保险,临床医保的费用报销中涉及到是不是治疗方案合理,是不是临床路径规划合理,甚至是不是有骗保,这些临床报销数据也是很大的数据来源。
第四是医疗企业会发现除了医疗本身,在治疗病人过程中,或者药物研发过程中产生的数据跟身体健康或者跟治疗有关以外,在患者平时的生活习惯、运动习惯,看起来不相关,或者知道相关但是很难采集的数据也是很重要的数据采集来源。比如说微信上走了多少步,甚至是社交中人与人之间的关系,大家逐渐的会把它采纳起来,作为健康预测的数据来源。
这四个方面对应下来,对于制药企业和生命科学来说精准医疗就会产生越来越精准的用药指导。比如说根据基因型确定肿瘤的用药,现在在国内市场越来越大。
大数据的应用:AI制药和精准医疗,就是通过人工智能怎么提高药厂研发的效率,在美国相关的企业越来越多的出现,在国内还比较少。从VC的角度我们希望看到越来越多的创业者在这方面发力。临床决策支持,现在有很多企业用深度学习的方法做病理图像、影像的判断,也就是复诊系统。费用管理和欺诈检测,现在出现DRG,我们怎么用数据的方法做更好或者是更科学的临床路径的规划。通过生活方面和行为对一并发病的预测,通过信息化的人对健康进行管理。
新药发现的流程:从最基本的科学出发,开始有了生物信息学,有了蛋白质组学,有了高通量的方法,通过这些方法筛选到靶点,哪个蛋白或者哪个基因发现了一个机理导致致命的原理,根据这个原理会设计一系列的化合物。希望这个化合物能够对靶点进行干预达到治病的效果,所以第一层要发现一个小分子。第二层发现先导的化合物,每步进行优化和筛选,看它是不是有好的成药性,再看有没有好的药代动力学,以及安全性,是不是能大规模生产,最后向FDA提出申请,最后进行临床实验。从这个流程来说,涉及到非常多的高通量的筛选,数据的整合,现在越来越多的生物质医学、大数据整合技术都在做,之前我在Tamr的时候会在这个流程做大量的工作。从每一步往下走几乎是数量级的降低,比如说有上百万个分子,往下至少是除以十的规模,每推进一步是几百万到上千万美金的花费,这是一个花费非常大的过程。在制药工业中,这是一个全流程,越来越多的企业在第一个环节希望通过数据分析和人工智能的方法提高效率,或者在第二个环节能不能更快更好更省找到好的化合物。
举个例子,国外有一家公司叫Twoxar,这家公司其中一个创始人是来自斯坦福大学,另外一个创始人是我们一个研究组出来的。他们拿的是美国一个比较有名的希望通过人工智能或者是数据驱动来改变各个行业理念基金的钱。他们是在AI制药或者是用人工智能在制药领域比较有意思的案例。制药工业中大家会进行高通量的筛选,或者高通量的实验来找靶向分子,他们做第一件事儿是找到各种样的组学数据,传统一般会用基因组的数据、蛋白质组的数据、病人的数据,抽象的说是找来大量的数据进行整合和关联。通过纯计算的方法产生药物和疾病的model,通过纯计算的方法和各种各样来源的数据,通过网络关联的方法,希望找到某一些药物或者某一些靶点,跟我们观察到的疾病是相关的。最后通过所谓的Feature Identification,也就是机器学习的方法希望对药物进行分类,或者对药物靶点进行分类,比如哪些更好,或者是成药性好,根据以往的制药过程的经验性的因素。最后就是Candidate Anaiysis,希望找到有用的靶点。在今年3、4月份的时候发表了一篇文章,他们与斯坦福大学合作,通过这个方法筛选了25000种治疗肝癌的潜在的药物的库,从这步开始拿到各种各样的数据,对25000种化合物进行筛选,上万种的数字在药物研发中找,经过这个方法用了一个月的时间缩小到10种药物,对肝癌有效。10种里面包括了被FDA批准的用至于治疗肝癌的药物,那个药物用传统的方法大概花了5年的时间找。从这个角度来说,我们发现用数据分析的方法确确实实可以帮药物的研发提高效率。这是非常早期,非常高兴的是能有这样一些新的技术出来提升制药行业的效率。
AI在制药中的应用:一是AI在制药中从海量信息找到药物治疗的信息,帮我们找到有药效的化合物。二是对已有的化合物通过现有数据的分析方法进行重利用。有一个简单的例子,以前我们发现一个著名的科学家发现一个药物希望它用来治疗心血管,后来发现它可以用在其他方面,比如说伟哥。以前药物纯利用是经验性的方法,在临床中发现它有副作用,再对它进行研究。现在科学家非常系统性对药物进行研究,一个方法是用生物信息学和蛋白质组学的方法来做。一个药物对一个系统进行干扰的时候,发现除了对已知可能产生作用的靶点进行干扰以外,有没有其它的靶点,如果有其它的靶点就是它的新应用。北京生命科学研究所有一位教授在利用计算化学的方法,把以前已有成药的小分子和现在已知的能够成药的靶点,进行小分子和靶点之间结合度的计算,根据这个计算也能找到以前大家不知道,或者大家已知化合物没有毒性了,对它生物化学的计算,发现新的靶点没有很好的结合,就可能成为潜在的靶点。从研发时间来说,传统的要找到一个好的药物靶点,需要10年的时间,10亿美金的花费,用这种方法来找的话,这是一个计算的花费。我们知道药物靶点是什么,知道小分子的结构是什么,我们只要做计算就好了,可以大大缩短时间。从研发费用来说,基本上需要的就是电费,如果是云计算的话就是云计算的费用。从成功的概率来讲也会提高很多,举一个例子,当时有一个FTO的靶点,肥胖症里面特别著名的靶点,大家对它的机制不是了解的很清楚,过去十年很多大药厂都对这个靶点进行研究,但是无一例外的失败了,原因是我们对机制的研究没有那么的明确,另外确实还需要很长的时间,而且很多药因为需要不断地试错,或者不断地失败才能出来。现在通过计算的方法,可以发现以前没有被大家关注的小分子,对这个靶点有很好的结合,以前大家不会想到这个化合物结构可能会跟它结合。比如说做药物靶点筛选的时候,大家不会找这方面的药物分子,因为计算的方法,他们开始找,现在正在往临床方面推,从动物实验来看效果非常好。这是一个比较有意思的AI,或者说是数据对制药的有意义的影响。
另外一个应用是在医保领域,可能会有骗保行为、医疗浪费的行为、过度医疗,临床路径规划不是特别合理的情况。通过对过去数据的总结,包括治疗本身的数据、治疗病理、医院本身的报销数据、个人医疗报销数据可以进行一系列的分析。通过这些分析可以有效的避免刚刚提到的那些行为,这里面用的也是AI和数据技术。
另外一个应用是临床决策,临床决策一个是诊断,个治疗。现在越来越多的通过深度学习的方法对于医疗影像、医疗图象进行识别辅助诊断,帮助医生找到可能的病症部位,医生以前要花十分钟看影像数据,现在可以提高效率。对于治疗来说,比如说IBM Watson,以前是用智库库的方法,把以前的医疗知识建设成数据图,现在除了树状的知识结构,他们也进行海量的医学文献的挖掘,进行一些分析,成为人工智能,希望根据这个帮助医生进行辅助的诊断。
健康管理现在可能刚刚开始,未来我们希望是治未病,希望把人的一些数据全部电子化,电子化以后通过计算机的方法对身体状况进行实时的监控。国内有的公司希望朝这个方向做,也在积极的推,这是未来和长远发展的方向,我们也希望越来越多的人工智能、大数据专家进入医疗领域进行这方面积极的探索,让我们生活的质量更高。(续--回帖)
来源:CDA数据分析师峰会:大数据与生物医疗分会场
吴云霞:下面有请嘉和美康的甘伟老师演讲,他演讲的题目是“大数据支撑下的新型临床可研”。
甘伟:各位专家、老师上午好!很荣幸跟大家分享基于大数据医学可研的应用。
讲四部分内容:医疗大数据面临的机遇、面临的问题和壁垒、机遇大数据可研想法和思路、公司简介。
背景:2013—2015年国家共颁布了58项与医疗大数据相关的政策。同时为医疗大数据的发展提供了强有力的政策支持。云计算、分布式存储、自然语言处理技术日益成熟,医院的信息化建设水平不断提高。目前政策倾向于研究型的医院,医院的可研氛围和科研成果逐步成为区分医院质量和竞争力高下的重要尺码。研究型医院的特点是创新解决疑难杂症、成果的转化、成果的推广。以上是我们医疗大数据面临的机遇,同时我们要面临哪些问题?
首先,临床医生对可研的积极性很高,但是在选题上十分困难,临床上很多问题需要解决,但是关键在于如何聚焦一些问题,把这些问题变成可研究的问题目前是关键。第二是数据获取和处理这是医院做可研的一大痛点,各类型的临床数据来源不同的业务系统,把分散的数据拿过来整理分析,本身就是一个极其复杂的事情。往往一些专家和可研医生带领自己的学生翻阅病历,相当于花费大量时间和精力找数据。数据申请过程十分的繁杂,申请过来的数据进行大量的处理,最后发现很多病理信息部符合临床要求。每天临床一生都在采集病历,都在写数据,但是用的时候发现它遥不可及。在统计目前,目前市面上有很多相关的统计软件,有的统计软件在医学算法上灵活性不足,有一些统计软件入门比较难。我们需要把数据倒出、清洗,会耗费很多医生的精力和时间。在传统的研究模式下,无论是提出可研问题和针对具体的问题进行收集、分析,研究数据都是一项非常耗时耗力、耗材的工作,严重制约了科研成果的产出效应。
面对这些问题怎么解决?首先,我们把临床研究过程分成线上线下两部分,针对线上部分进行了切分,把过程复杂、可以介入计算机处理的环节进行了标准化的处理,比如说数据采集,拿图上红色的环节来标示,数据采集、数据清洗等等,我们对这些环节进行进一步聚焦,通过与传统模式的对比,把优化工作放在几个重点环节。比如说实验设计,在传统的研究模式下,非常依赖于从医经验和学术论文的总结提出研究问题,现在有了大数据之后,可以基于大数据借助数据挖掘技术去挖掘发现问题。在数据获取方面,通过人工翻阅病历,有了大数据之后可以建设基于单病种的科研数据集市,基于可研数据集市科学的筛选病历。有了大数据之后可以针对不同的样本进行多次验证统计结果。
我们的产品业务架构的主要核心是数据集市,我们整合了结构化和病理二次结构数据,根据病种的要求形成了科研数据集市,专门为科研服务。有了业务架构,产品技术架构采用了经典的Hadoop存储架构,形成了数据分析引擎、数据挖掘引擎、ES搜索引擎,数据分析引擎主要倾向于科研复杂指标的计算,数据挖掘引擎主要是针对于常用医学统计算法的计算。有了目标和架构,下一步该怎么建设这个平台?
在病历里面70%的数据都属于非结构化数据。所以我们把病历的后结构化放在了首位,采用了自然语言处理技术,实现了从标签分持到语义分池的转变,标签分池注重于实体抽取、实性标注内容,但是缺乏语义性的关联,通过语义分析之后就可以串联复杂的病历结构。经过我们的语义分池可以清晰的看到一个患者十年前症状是什么,症状持续时间是多长,包括治疗方式是什么,当时的治疗效果是什么,到了前五年又是一个什么情况。在这里数据结构相当于已经非常清晰了。
说到数据归一,我们整合了临床诊断、标准诊断,实现了诊断的多级分类,最终形成了诊断树,有了诊断树林只有后无论是在树的任何节点都可以搜索到比较精确的数据。比如说ACS,我们要搜索ACS下面的患者,如果没有做数据归一之前,我们搜索ACS患者,只能搜到少量的数据,做了数据归一之后可以把ACS下面成百个子诊断对应的患者全部搜索出来。同时,不管医生搜的是临床诊断还是标准诊断,我们都可以搜索到相应的信息。
通过分池、数据归一最终形成了医学的知识图谱。有什么用呢?可以通过某些症状找到相关的疾病,同时治疗这种疾病平时吃了什么药,做了什么检查。可以进行分析。
大数据挖掘技术,主要分成三个方面:自由文本挖掘、机器学习、统计分析。机遇R实现了医学统计的常用算法,比如说利用聚类这种医学统计算法可依分析用药的不良事件要药品品种之间的聚类关系,哪些药品可以少用慎用,避免严重的不良事件的发生。
产品的功能,包括数据质控,是基于可研全变力的数据质控,包括数据值、异常值的提示。问题挖掘为临床医生提供数据挖掘统计视图,基于多维度的统计让医生发现问题。自助取数,我们可以提供基于全样本的病历自由筛选。医学统计建模,是基于R的医学统计模型。我们的产品有基于研究人群的数据质控和统一建模、人群分析。
应用案例:知识图谱可以探索疾病之间的关联关系,辅助问题挖掘机临床决策支持。
评价某种药物或剂量组合对疾病预后的影响。案例:通过图可以清晰的看到,用药对TCI术后一些关键指标的影响。
预测某种疾病发病概率或风险分层。根据患者的年龄、性别、血糖、甘油三酯、胆固醇、LDL等指标,运用决策树方法,建立冠心病的预测模型,用以评估患者患病概率或风险。
对患者CT影像不同异常程度进行分级,利用ROC曲线,评价诊断能力,并计算得到最优分割点。
平台安全机制分为四个层面:网络安全、系统安全、数据安全、管理安全。除了最基本的分级权限控制以外,还有强大的日志跟踪系统,不管在这个平台里做任何查询或者是数据的处理,都会记录在案。
最后请允许我隆重介绍一下我们公司。我们公司成立于2005年,注册资金1.4亿元,员工现在600人以上。我们拥有上千家客户,在大数据技术方面具有多年的经验和优势。
谢谢大家!
吴云霞:经纶世纪医疗网络技术(北京)有限公司创始人&总裁余中,给我们讲“健康医疗大数据的建立与应用:标准化,机器学习,智能服务。”余中博士旅美留学、工作、硅谷创业二十余年,曾担任美国AT&T公司技术总监/油罗设计师,并在硅谷创办两家通信高科技公司。曾担任加州理工学院JPL研究员。
余中:非常高兴有机会给大家介绍一下我们在智慧医疗健康服务,从数据以及服务模式方面做的一些工作,这项工作在国家卫计委健康医疗大数据评估与保障专家委员会指导的情况下做了一些工作。同时我们跟中华医学会、中国健康促进会共同在健康医疗领域中,从数据、从机器学习、人工智能到最终形成的服务模式做了一系列试点工作。今天给大家做一个介绍。
题目是“大数据、人工智能、智能机器人驱动的健康医疗服务体系,从4P医学到PCIC到健康中国”。
一、4P医学
从大数据的研究来讲,非常重要的一点是应用场景,特别是个性化的应用是真正产生最终颗粒度非常小,同时非常连续的大数据的源泉。4P医学讲的恰恰是我们所说的个性化,4P本身是由美国一位科学院工程院和科学院的三院院士理·胡德博士提出来的。他当时提出的4P是预测性、个性化、参与性、预防性。4P医学提出来的时候是在20年前,理·胡德是一个传奇人物,在美国有三院院士的人在美国只有十几个,他是其中之一,他是属于真正跨界的开创式的人物。
4P医学从我们国家的医改、健康中国、人工智能在健康医疗领域中的应用的角度,实际上它是一个基础。我们对4P医学当时在中华医学会、国家卫计委卫生发展研究中心做了一系列的研究,最核心的一点是把医学跟数据,把临床跟信息紧密的结合起来。这是一个基本,它既是一个医学本身,同时更重要的是医学的方法论,是用在健康医疗这个领域中。用的是现代的医学跟现代的信息学,把两者结合起来。最终它带来的目标是从高效率、高质量、低费用革命。
第一,从预测性角度来讲,它可以发现危险因素,预测发展与结果。预测性很重要,我们做的很多东西都是为了预测,预测的目的是为了进行风险的评估,预测你会有什么样的风险,你还进行评估。风险评估是我们所做的一切事情的核心,从医学的角度来讲。无论是在亚临床阶段,还是在临床阶段,预测本身都是一切的核心。所以一切的根本是预测,特别是跟保险公司、药厂之间的合作,我们跟保险公司做了联合实验室,做了大量的数据分析,都是围绕着预测在做,预测风险。第二,从预防性的角度来讲是预防与早期诊断。第三个方面就是个性化,我们所做的统计分析、人口的健康分析一定会走向个性化的医疗,或者是个性化的健康管理。第四个方面是参与性,怎么样真正产生互动,把所谓供给方跟接收方之间产生新的模式、新的服务、新的方法。
4P医学实施的前提条件。首先科学得发展到一定的程度,也就是要有系统的生物学、系统的医学,这是第一点。二是数据化到一定的程度,数字化到了革命程度才能真正呈现从技术、从医学、从专业各方面形成新的4P医学的服务模式。三是可以跟客户很方便的对接,也就是今天讲的社交网络、移动互联网,都是跟客户之间连接非常方便及时。四是具备导致变革的“因素”,这个非常重要。所谓具备导致变革的因素,就是必须是从全社会从上到下,从下到上的过程。这是真正的4P医学。现在变革非常多,这就是通过大数据、人工智能在医疗领域的应用,是一个非常好的应用场景,已经在实现过程中,就是因为中国ZF在过去的几年里,大数据、人工智能在医疗健康领域的应用,由ZF主导的政策、法律法规、规划,使得我们具有这样一个变革因素在中间。
医学将会是一门“信息科学”!这是一个预言。我问理·胡德为什么这么说?他说,从本质来讲,当科学发展到一定程度,包括医学的技术、方法发展到一定程度,最终重要的只有一点,不是怎么做,而是做什么;不是如何实现,而是我如何做决定。最终就是决策,只要决策完了,一切东西最终都会用很方便的方式实现,当然谁我们讲的终极的未来。这个终极的未来,医学最重要的就是做决策,做完决策后面就是怎么做,比如说有机器人、专家系统的虚拟医生,或者是医生的智能助手,这是未来的五年时间中都可以实现的,至少成为80%、20%原则,最终实现机器人做80%的工作,20%的工作是真正的专家来做相应的工作,这是人工智能和人类智能之间的分工,这是未来发展的必然结果。
二、以人为本的一体化卫生服务体系(PCIC)
这个体系是世界银行在几年前跟世界卫生组织、财政部、国家卫计委、人力资源和社会保障部共同做了一个研究,这个研究本身就非常重要,它是根据中国目前人体的医疗健康的体系,以及我们面临的挑战,有慢病的发展、老龄化的出现,特别是未富先老的国家,以及民族的特殊情况。另外,医疗资源本身就极度分布不均匀,可能90%的“好的”医疗资源只是集中在只有10%人口的大城市里面。这种情况下,怎么样能有一个顶层设计对于一个国家健康医疗服务体系中打造新的原则,以及生态。4P医学就是“以人为本”的一体化卫生服务模式。
有三方面非常重要:
首先是基层非常重要,从基层往上走是非常重要的一方面,这也是为什么ZF出现的了分级诊疗、家庭医生、强基层,都是从基层开始,因为有了基层才可能真正支撑上面的大科研。
二是服务必须要一体化,所谓的服务一体化最后体现在分级诊疗、双向转诊,所有的提法最终都必须有一个智能的分级诊疗,智能的双向转诊,智能的家庭医生。这就是怎么样把大数据、人工智能、机器学习、机器人一系列的方式最后成为一个重要的抓手来支撑今天所说的PCIC服务。
三是治疗和预防服务相结合。一个国家花了巨大的钱只放在治疗方面,不放在预防方面,这是不可思议的花钱方式。为什么胡德说,当我看到中国大的医院里面有那么多人进来,有很多都是很一般的病,最后去找专家,占用了专家的时间,他说,我认为这是一个绝对的不可思议的一种方式浪费一个国家最重要的资源。他说,我绝对不相信,怎么可能有这样的事儿,大量的人到三甲医院,最后看的是非常简单的病,哪有这样的方式来浪费社会的资源。这就是治疗和预防的分级变得如此之重要。
PCIC的核心是在合适的时间、合适的地点,提供合适的服务。这取决于你怎么样做决策,怎么样进行预测,怎么样进行分析,最后是怎么样进行基于决策来联动的服务体系的运转。
PCIC包括两方面,一方面是通过分级诊断、双向转诊、急慢病分治、上下联动,这些都需要人工智能,无论是体现在大数据分析角度,还是体现建立基于规则的专家系统的指导,还是通过机器人的方式主动的跟你进行交互,在每一个环节都会用到。另一方面是健康管理,一个是防大病,一个是治慢病。
从“4P”医学到“PCIC”,的集成式的健康医学管理,把4P医学作为医学方法,把PCIC作为服务体系,这样的话无论从方法学、技术、平台、手段,最后到我们所说的服务体系、服务定位,以及整个健康医疗的生态资源分配。从这几个角度来讲,这是一个整体战略。出台的很多政策都是根据这个战略出来的,今年真正第一次提出来关于健康管理的规范,上个星期出台了新一代人工智能发展规划。
分级治疗:基层全科医生服务体系的建立
我个人认为,人工智能包括大数据,包括其他方面,它的应用场景最核心不仅仅是用在可研上,最好的战场我认为是用在基层,从全科医生、家庭医生的角度来讲,因为他们产生的作用对于社会会产生巨大的意义。从医院改革的角度来讲,如何把预防、保健、治疗、康复形成一个闭环,这是真正意义从信息化走向智能化体系。
健康管理服务体系:到现在健康管理变成市场上非常热的词,健康管理到目前为止也面临着非常多的挑战,挑战的根本,一方面是因为从技术、服务体系的建立仍然在过程中;另一方面是因为从健康医疗服务体系的该度来讲,包括资源,包括支付这些方面不够完善,使得目前的健康管理虽然非常重要,但是并没有形成非常好的闭环,我们也在积极的推动,把服务提供方,把我们所说的政府的构架,以及支付方,医保和商保怎么结合寻找新的模式。我们可以预计,健康管理在接下来中央政府强力推动下,最后会形成全生命周期的服务一定会成为一个闭环。当成为闭环的时候,这件事情就可以起飞了。如果不能成为闭环,闭环就是服务、运营、支付、最后的评价,这是我们非常期待的在接下来的三年时间理健康管理成为真正意义的主战场。
健康管理中非常重要的是评估与预防,预防是从零级预防到三级预防,从这方面来讲大数据、人工智能有非常广泛、非常丰富的应用。
我们中华医学会、中国健康促进基金会医学物联网发展专项基金这个平台上我们做了一些工作。首先,我们在300多家三甲医院做了大量的标准化数据的治理工作,在数据治理、数据分析、数据应用方面,我们做了医学物联网发展基金工作,包括数据平台、智能服务平台、科研、产业+商业的服务模式以及商业模式的打造。我们在全国建立了300家示范基地,各个省份当地非常重要的医院聚集起来提供一整套基于大数据分析、基于人工智能驱动的疾病管理,以及慢病管理,以及慢病预防等一系列服务平台,在这个平台上我们打造、建立与目前的医学服务结合起来,产生实医技术,根据医院不同的情况不断打造示范点。
体检是非常重要的一点,体检、健康管理、医学的结合方面我们也做了大数据分析平台,到智能健康管理,到智能健康医学服务。我们把健康医疗大数据跟医学AI引擎、健康物联网系统形成一体化的服务,服务过程中数据驱动引擎的打造,引擎最后驱动服务的实施,服务的实施产生的动态数据回过头来补充健康医疗大数据,真正形成一个闭环。我们建立了标准平台、知识库、知识图谱。
举例:甲状腺现在是非常高发的病种,临床医学肿瘤协会出的甲状腺结节与分化型甲状腺癌诊断指南,甲状腺结节很常见,一般人群中通过触诊的检出率为3—7%,借助高分辨率超声的检出率可高达20—76%。通过这个课题我们想了解甲状腺到底出了什么问题,为什么变得高发。特别是保险公司招到我们说,甲状腺疾病是疾病险中出险的参数,说能不能帮我们好好研究一下甲状腺出了什么问题。我们通过搜集几百万人的数据做出一个阶段,它的检出率是女性57%,男性是43%,回过头来指导对甲状腺病的早期预防、筛查、治疗方法,愈后的预判
保险所有一切就是风险,保险所关心的就是风险,怎么样发现风险,怎么样量化风险,怎么样预防风险,跟健康从大的结构上完全一致。基于大数据分析,我们再保险方面做了一系列工作,最终如何在几个大的方面形成核保、差异化定价、赔付、控费进行全局的考量,从数据模型到服务,最后进行优化,形成一个闭环。
机器学习和专家系统怎么结合起来?机器学习是从下自上,专家系统是基于规则怎么样应用。数据与服务的结合,数据和服务形成闭环,我们所说的服务不仅仅是建立一个模型,不仅仅是做一些分析,最终的目标是把数据分析,形成服务,这样就会形成一个闭环。通过实践,通过数据和服务,通过人工智能和人类智能的结合,最终形成一个闭环的时候,这个产业才能真正起飞。如果没有形成一个闭环,中间就可能碰到非常多的挑战,无论是从服务模式角度还是从商业模式角度来讲。
我们研究一个个病历的起源,研究诊断与治疗的方法,研究如何把诊断治疗的方法跟应用、跟医疗资源做对接的时候,虽然我们都是在寻找一件事情,就是如何进行预防,每一个时间点或者说每一个服务电,我们最强调的都是预防。预测和预防是紧密结合的,当你以预防的心态看待这件事的时候,大数据、人工智能的学习方法、智能服务的平台或者说系统自然而然的就会打造。在这个过程中,当你把预防这件事情做好,才能真正产生今天所说的对目前的现状有所了解,对未来的走向有预判、有理解。这样的情况下,才能真正提供所谓的智慧健康医疗服务,不是简单的就事论事,拿一个放大镜来看现在的疾病是怎么样的,这个要研究,但是一定要面向未来,一定要分析未来可能发生的情况是什么。从这方面来讲,我们所说的大数据跟机器学习、人工智能方法就在应用过程中有非常广阔的前景。
做数据分析,现在有一个非常流行的说法叫人工智能。什么叫人工智能?就是有多少人工就有多少智能,也就是说你要花大量的精力去准备数据,做相应的课题设计,做大量的数据准备工作才可能用一些模型和算法来做。做完了以后,更难的工作是在后面,你怎么样解释它,它的意义到底是什么?中间所代表的要进行解释,要进行分析,最后才能得出一个合理的判断,这就是为什么有多少人工采可能有多少智能。这就说明了数据分析师如果不跟领域专家合作的话,你分析出来的数据基本上得不到有意义的结果,所以计算机科学家一定要跟医学模式结合起来,进行真正深度的结合共同研究,来预判,来预测一个世界,一个体系的发展,这变得极其重要。也就是专业跟数据分析师,跟医学服务人员、专家紧密的结合变得极其的重要,如果没有这一点,恐怕做出来的东西反而有可能会让你走偏方向。
我们做了一个天使机器人,这个天使机器人从功能和服务的角度,目标是为了把客户健康医疗服务总需求通过它,通过各种功能的传感器,各种不同的交互综合起来,能够给我们服务的提供方,不管这个提供方是谁。这个机器人本身是把外面的服务提供方的能力最后总结成一个总供给给 机器人信息,最后服务终端的客户。服务的类别分为三部分:一是对预设服务路径的高效执行与管理。比如说我知道你是高危糖尿病II,至少有一个临床服务路径管理,因此会有一个预设的服务路径。二是对客户提出的需求的实时响应,客户哪里不舒服,有什么样的需求,我们会实时响应。三是对感知客户需求的主动服务。我来感知你的需求,当你不知道的时候我来感知你的需求,从机器人的角度提供主动服务。这是从人工智能的角度,人工智能怎么样跟人进行交互,在交互的过程中产生服务的提供以及服务的接收。
我们做了一个智能助手,目前已经开始试点应用,我们把社区的家庭医生通过全科医生的智能助手,在很多方面成为医生的助手,在某些方面成为医生的老师,给患者服务,这是基层的服务。同时跟中心医院的专家进行对接。
比尔盖茨在上世纪70年代末提出来,希望每个人家里都有一台计算机,今天每个人家里都有一台计算机已经实现了,我们提出每个人家里都应该有机器人。比尔盖茨提出的计算机革命大概用了几十年,咱们做到了这一步。我们认为,今天机器人的普及不需要几十年,我们希望在5—10年之内每个人家里都有一台机器人,这个机器人会成为你的助手,成为你的伴侣,无论从哪个角度,把你今天所做的工作中解放出来,成为你非常好的助手,成为你非常好的伴侣,成为你很好的老师,在某些方面对你有非常好的指导。
从医疗健康体系来讲,我们形成人、机器人、设备、云平台之间形成全方位交互,形成一个智能机器人的服务网络。这件事情我们做了好几年了,建立一个新型的把人机跟人类之间如何结合起来,打造一个新的服务模式。
中国健康医疗大数据与“PCIC服务体系”,作为一个顶层设计,如何把今天我们所说的从疾病的预防、保险、诊疗、康复一体化的服务体系建立起来,如何打造一个新的健康医疗服务体系,包括分级诊疗、双向转诊、慢病管理、健康管理,跟今天的大数据、人工智能、机器学习、机器人这一系列技术整合,这是一个必然的发展趋势,是一个必然要实现的事情。在这个过程中,我们如何把健康的评估、疾病的预测、健康的干预这样一些模型在现有的情况下作为一个核心的大数据应用场景,事实上它有非常广阔的前景。同时,我们做的所有一切希望成为PCIC创新服务模式,包括“互联网+健康管理+健康保险+人工智能”,我们有可能打造一个新的模式,是基于中国市场的需求作为起点。同时我们认为这样一个新的模式的产生事实上有普适的意义,不仅仅适合中国市场需求,对其他国家的需要也有很多相通性。因为最终做这个事情的目的是要把我们所说的健康医疗的大的服务体系,首先是费用,第二是质量,第三是可及性三个方面进行优化,这三方面的优化是超越国家、超越民族,超越任何一个具体的体系。如果能把费用控制得住,把服务的质量跟得上去,把服务的可及性做好,让所有人,不管是有特权的人,还是没有特权的人,是有钱人还是贫穷的人都能得到很好的医疗健康的服务,因为这是一个最基本的服务,所以必须要提供一个最基本的健康医疗服务,针对所有人。要把这件事情做好,大数据、人工智能、机器学习所有的新科技在中间会产生非常重要的意义,能够大有作为。
从PCIC到健康中国,从整合健康医疗信息/大数据,从开展疾病防治一体化服务,到最后的健康中国,健康中国最后成为普适性的服务。现在国家大力推动的“一带一路”卫生合作,我们希望形成一种新模式,最终打造健康丝绸之路,这是国家发展战略方面非常重要的方面。
创新引领健康中国,用大数据、人工智能方式支撑健康中国的宏伟目标,使得老百姓能够真正得到最好的健康,最好的医疗服务。
谢谢大家!
吴云霞:感谢余博士的演讲。刚才余老师讲了七大模块,一是个4P,二是PCIC(以人为本一体化服务体系;三是分级诊疗服务体系;四是健康管理体系;五是中国健康促进会医学互联网发展专项基金的秘书长为社会做的这么多工作,从PCIC到健康中国,每一个部分展开的话,演讲起来都会非常的精彩,而且很多都是干货。再次感谢余中博士的精彩演讲。
吴云霞:下面有请慈铭奥亚健康管理医院运动医学中心主任陈伟杰演讲,他演讲的主题是“大数据下的健康体验和检后康复介入”。
陈伟杰:各位上午好!
我是慈铭体检的陈伟杰,负责康复部门业务,今天特别有幸来到这么大规模的会议,跟大家分享一点点我们工作中遇到的事情,还有一些不体成熟的产品,跟大家汇报一下,希望抛砖引玉。
今天我分享的主题是“大数据下精准体检及检后康复介入”。
慈铭体检有15年的时间了,做了大量国人的健康体检的检查,有大量体检之后的健康数据,我们都有留存。从以下三方面跟大家分享:一是大数据终的健康趋势;二是数字化健康管理服务升级;三是检后康复介入。
慈铭体检做了15年的时间,有将近3000万专业的体检报告,医生团队有200多个,全国直营店有将近100家,合并后有几百家的直营店,我们有核磁、CT、癌症的筛查、基因片断序列检测等等。
第一,大数据终的健康趋势
这几年国人身体指标变化不容乐观,随着生活水平越来越好,超重、三高、内脏疾病、外科疾病都随之而来,生生不息。大家可以看到超重的情况,到2015年的时候稍微有一点缓解,到2016年有了反扑。高血脂、高血糖基本上是往上走的趋势。
针对大量的体检之后的人群,慈铭体检多数会出具一个专业的体检报告,现在我们拿到一次报告之后到底该怎么做健康干预,下次做体检的时候两个指标进行对比,能给自己什么样的启示是我们现在开始开展的后续跟踪工作。
第二,数字化健康管理服务升级
从健康体检慢慢升级为全面、全生命周期健康管理服务,从预约到之后的讲解,到24小时医生咨询,到一些大病的转诊保证,包括小问题我们可以进行康复介入。这是由我们团队做的。整个流程从一次体检开始,从评估到定期回访,再由专业的跟踪,介入以后再做深度体检,最后做前后的对比。我们把所有的疾病分成了金字塔形的情况,高危、中度危险、风险比较低,从慢病也有分型,从疾病种类的分型和另外一种分型。这样就可以把高度风险转诊到一些专科医院,让他在第一时间得到更加专业的照顾。低度风险的进行分流,到康复中心进行专业的康复干预,中度风险会派驻私人医生进行24小时跟踪,包括保险的介入。
现在的体检报告包括片子、心电图等等,所有的东西都会融入在我们新开发的App,叫记健康。很好玩儿,可以从里面看到历年来在慈铭做体检的所有身体指标,我们会画一个人的形状,你点哪个地方,哪个地方如果有问题,就会显示出相应的提示。打开App的页面,有小人形儿的体检汇总,以及下一次做体检的预约,以及专门配了私人医生,无论从运动方面、饮食方面、服药提醒方面都会做到更加的落地,更加的精准,更加的好用,不仅仅停留在饭后百步走的浮浅的表面上。与此同时,我们还开通了微信课堂,我们有一批很特殊的用户是中石化物勘局,他们常驻海外,他们的健康怎么保障呢?我们想了各种各样的办法,通过搜索Google地图,帮他们安排一些定向的越野,安排一些定期的体检和线上课堂,帮助他们恢复健康。
从PC端可以看到如果是一个集团企业采购的话,采购完以后可以看到下属所有员工的体检的总概率,大概哪方面容易出问题,比如说IT组的颈椎可能更容易出现问题,高管或者企业主就应该投入更多的注意力和这方面的关怀。
第三,是检后康复介入
检后康复介入主要是运动介入为主,主要是骨科的康复和很好玩、很有趣的运动干预进行介入。介入以后,包括以下几方面会进行分级分批,不是每个人都有运动提升的需求,但是每个人都需要更适合自己的运动方式,所以我们进行分级。我们从估计肌肉检查序列及动态检测进行着手,给他的报告一定是非常切实可行,能看懂,并且有后续非常量化的执行标准。我们曾经给汉秀的演员进行了专业评估,从内线到肌肉对称性,再到骨骼排序,都做了工作。还有表面肌的测量,这些数据在体检中心都会有留存,包括跑步时膝关节内扣的角度,久而久之就会导致半月板的损伤,膝骨关节病的产生,肥胖之后关节间隙的蜕变,所以我们把所有的工作尽可能提前,做到早干预、早治疗。
除了骨骼肌肉的评估,我们还进行了心肺的评估,进行了力量的评估。力量训练在女性结经期前后,男性中年的时候非常关键,因为钙流失,身体机能急速的下滑,有力量的加入才能更好的抵抗衰老。除此之外,我们会给在我们这边做康复的人制定一些套餐,这些套餐有固定的模式,会进行微态。有表现力提升的,也有定期调理的,还有三高、亚健康调养的,以及身体功能恢复、治疗骨肌肉骨骼慢性疼痛,我们会拿出很系统的SOP对大家进行干预,进行评估,再到后期的比较。
我们在体检分院推行一些工作模式,尽可能达到离您住的地方有2公里之内找到一个康复中心,有一次不小心打球扭脚了,可以第一时间找到专业的做康复的地方,不至于 去到足疗店,一些不太正规的地方,让小的病情更加的恶化。
除此之外,我们针对企业客户安排了团队健康干预,比如说我们给中石化物勘局的人配送了小米手环,让他能看到自己达到最大心肺功能时的运动强度,计量步数,做一个总体的排名,团队有一个排名,这样可以更好的帮助到企业员工的健康管理。通过活动前后的对比,通过身体疾病的对比,无论是痔疮、血糖、超重情况的对比可以说明从很好的运动干预对两次体检指标会有很好的帮助。并且能够提高企业出勤率和降低他们的病假率,这对企业主来说是一个福音。
我们在利用这样一个互联网平台基本上做到了是一个很好的枢纽,我们从奥亚医院做完检查之后进行评估,评估完以后所有的康复基本上都可以拿到慈铭各个分店做,利用体检分店下午和晚上的时间,派驻专业的治疗师进行专业工作,第二次体检的复检和评估的复查再次来到奥亚医院。
慈铭体检的制定的标准化套餐,制定的标准化康复办法也许能够帮助到大家。希望大家有任何问题可以随时进行沟通交流。谢谢大家!
吴云霞:下面有请微软(中国)有限公司产品经理王大禹。王大禹是香港理工大学计算机专业博士,中国中医科学院医学信息学方向博士后,研究方向包括中文医学本体自动构建及评测、电子病历处理与分析、症状信息分析与抽取。
王大禹:今天给大家分享一下AI大数据和医学健康之间的关系。非常感谢主办方把我安排到了最后一场,大家现在肯定非常饿,但是研究早就发现人在饿的时候消化道会分泌一种酶,这种酶会刺激海马体,饿的时候分析和记忆的能力会提升,所以尽量给大家分析记忆的机会。现在的外企和进入中国的企业非常强调知识产权,我今天讲的任何东西都和微软中国有限公司没有任何关系,这是我过去以往和自己在业余时间爱好的研究。
医生如何诊断疾病?
看一下医生诊断疾病的过程,看这个过程的目的是研究做数据分析,数据是独立的,但是我们研究数据分析的核心问题就是研究场景,场景是非常重要的。因为所有的算法,所有的数据要想真正深入的了解,一定要把场景研究好。简单看一下医生给病人看病的过程,当然不同国家是不一样的,中国的现状有中国的特点,总之需要从病人那儿获取信息,病人提供的信息,直接提供的有两种。第一种叫主观症状;第二种是客观事实,客观事实可以用测量的方法、影像的方法得到的东西,但是主观感受信息非常重要。为什么?这是医学本质的问题,什么样的人是病人,什么样的人去看病?是不是检测结果是病人他才是病人,这不一定,主观感受决定了他是否去医院。另外,什么样的病叫看好了?是不是数据说话?不一定,数据是一方面的表示。主观感受非常重要,这就给数据带来了一个非常难以解决,但是又有前景,空间无限的场景。什么意思?病人的主观描述是非标准的,个性化的,带有方言的,我们研究医生写的缩略词我们都不懂。但是比较起来病人的主观感受,那是非常微不足道的。我在天津实习的时候,恶心这样一个症状,天地的当地话叫“趔趄”。要做数据处理的话,做自然语言处理的话是非常难处理的。
时间轴是医学健康非常重要的东西,最简单的一个事实是,一个健康人也好,一个病人也好,一个健康人的体征会变化,他会衰老,包括各项运动的指标,现在就只有跑步这一项运动18岁和60岁的性能是一样,没有任何一项运动60岁的时候还会保持18岁时候的结果。病人本身也是这样,过去跟现在,往往能想起来的是现在,过去的客观事实怎么办?医院有纪录,可以调过去的体检报告,但是很可能20年前的体检报告没有了,那个时候没有数字化,这个时代刚刚到来,20年前没有这样的会议,能够找到一些数据,但是本身的主观感受野是靠回忆,这是非常难得到的数据,因此这是商机。
我今天给大家讲的是从技术到产品,到商机。什么叫商机,大家希望一个App有粘性,什么样的云有粘性?传说一般张相片有点儿粘度,什么样的黏度是掉不了的?20年前的记录在这儿,这个记录不容易轻易倒出,当然可以设计倒出的瓶颈,保护我们的系统。不轻易倒是出去的记录,医生告诉他想看这个病,想准确的诊断,必须把20年的记录要给我,这个云永远要用,就会用一生,这就是粘度的问题。医生也应该问一问生活状态、家族问题,但是医生往往没有时间,尤其是名医看一个病人就几分钟,实在没有办法。医疗环境不佳,医生步态情愿做详尽的沟通,因为确实存在难缠的患者,因为精神有问题的人本身就有11%,这个也好理解。特别的环境下,我们的医疗4生都在保护自己肉体不受伤害,所以尽可能减少跟病人交流。所以生活对病人的诊断非常重要,这个信息医生往往拿不到。
我在和大量的医生接触,我是计算机专业,我也在学医,因为我想学专业的知识。医学的培训和营养学的培训完全不一样,为什么现在有那么多的保健品,也许很多慢性病,或者不是要命的病第一步治疗可以建议服用营养素,不是先上西药,或者先动刀子。医生的营养学素养不高,他就没受过这种训练,不可能先告诉病人你先吃500毫克钙,维生素B,我给一些朋友会有这样的建议,先试一试这个,好了就不用去医院了,没好再去医院。生活包括生活习惯、工作性质,对这个病人疾病的诊断和治疗有非常重要的影响,我们可能拿不到,但是我们正在做,我们现在讲把很多不可能变成可能。家族遗传现在我们有更好的办法,基因组测序的成本在逐渐的降低,很快就有可能200、300元人民币。
医生诊断疾病有很多问题,还有一个核心问题是医生和病人信息不对称的问题。医生学的是统计学结果,加上临床经验,自己的经验、师傅的经验、同事的经验。病人看病,对自己的病非常了解,尤其是当大家的知识水平,大家的文化程度在提高,大家记东西就有云笔记,相片可以随手拍,可以由日志、病历,这种情况下病人对自己的病了如指掌。医生给他的治疗方案,他会说这个方案我在哪个医院试过,指标大概是什么样,他非常清楚。医生有时候很烦,一声不希望病人告诉你我怎样看病,医生希望你给我一个最简单的方法,让我瞬间把你过去的20年的生活或者是医疗记录看到。病人对自己的病非常了解,但是病人有时候会遗憾,有时候会隐瞒。现代科学医生看病不能乱看,能发挥的空间极小,当然肿瘤目前的诊病方法不同,其他的病诊断方式和治疗方式是固定的,医生如果不这么看会负责任。相对来说中医稍微自由一点,相对灵活,所以如果医疗有创新,有可能中医更可以创新,至少可以尝试,西医如果尝试在责任方面就通不过。有的时候病人认为某个信息不重要,但是可能对于医生来讲是非常重要的,这也是一个问题。所以我们要求病人毫无保留的,主动的或者被动的把这些详细给我们。
来到信息时代,刚才说这些拿不到的信息,都可以被各种传感器、可穿戴设备、各种信息所留存,信息时代我们做很多事情的机会来了。怎么做?人体是非常复杂的,药物和人体的作用也非常复杂。举个例子,维生素C每天应该吃多少?现在是网络时代,大部分信息都可以在网上查到,去网上查各个国家都有营养学医学的建议。维生素C大家是需要吃的,因为我们是灵长类动物,人和猴儿都需要吃维生素C,要么从食物中来,要么吃药片。我个人觉得,加拿大这个看着靠谱,因为男性和女性区分开了,为什么?因为大家吃饭的量不一样,可能维生素C的摄入量也不一样。这些都是科学计算出来的结果,说明我们得出结论的过程可能是有问题的。维生素C是怎么算的?维生素C有一个症状,维生素C提供了胶原蛋白的合成,胶原蛋白缺少了就容易毛细血管破裂,最典型的就是牙龈出血,牙龈出血的同学多吃点儿西红柿、维生素C就好了。我们医学界怎么判断维生素C吃多少,让一个正常人多少天不吃维生素C出现的症状,把可能有的维生素C除以天数。每个人吃维生素C跟条件有关系,比如说吸烟的人对维生素C的要求多,他在疾病诊断的时候,对某种药物的要求也就多了,这是有可性比的。维生素C跟情绪有关,因为科学家们已经发现一只抑郁的山羊会主动多吃草,尤其是吃维生素C含量高的植物。人也抑郁,工作压力大,就要多吃维生素C,看到同样的治病和治疗方案是不是要有差别,显然是要有差别,现在做不到。人吃维生素C的量远远不够,吼猴每天吃树叶的量要几斤,人都要50多公斤了,比起来人的维生素C摄入量远远少于灵长类在丛林里生活的动物。丛林里的植物比较新鲜,我们吃的水果和蔬菜都是工业化,经过经销商、快递送到你手里,维生素C可能都没有了。
这样得出一个结论,发现维生素C也不以为这可以准备的确定剂量。什么信息决定健康,决定诊断,决定治疗,决定治愈?大概有几类问题。
刚才说完人体是非常复杂的,有很多疾病也是非常复杂的。我们在日常生活中可以看到疾病的复杂,看一个新闻,这是一个学雷锋的新闻,有一个公安干警每天看着小孩儿过马路,因为我们对小孩子保护不够,没有校车的概念,所以这个民警爷爷看着小孩儿过马路,但是他得病了,得了肺癌。这是报纸上写的,每天下午五点左右老高都要经历一次剧烈咳嗽,持续一小时左右,这种症状对某种癌症的诊断是有意义的,如果大家肯找的话,你会在一些类似的文献和研究中发现定时咳嗽这样一个症状。显然,现在这个症状并没有放在任何呼吸系统和癌症的诊断里面,中医有自己的说法,但是太简单了,说几点什么东西排毒,过于简化,它的思路很好,其实没有那么简单,如果那么简单要数据分析干什么。
这个疾病稍微有点儿长,这是一个治疗非常详细的医案。这是一个清朝人给乾隆治过病的医生叫徐灵胎,他是搞水利的,业余时间研究中医,成为了一个著名的中医。这个病是归为祟病,就是鬼鬼祟祟的病,现在我们认为迷信的东西,他认为是一种病,而且这个医案可以做数据处理,可以做分析。
有个小媳妇儿回娘家,看见有蛇王庙,说拜拜蛇王可以治疗疮肿。她就去拜了蛇王庙,拜完之后回家的症状是抽搐、神志不清,舌动如蛇,舌头像蛇,而且说蛇王遣两个女仆一个男仆要来找她,而且这个名医就去治病了。用至宝丸,这是一个中国传统的药,找一个老太太给她往下灌,病人说你这是毒药,我可不能吃。然后,嘴里还含着药,就把这口药喷到了老太太脸上了,老太太也躺下了,不省人事,舌头脖子也在转,也像蛇一样。然后换一个人把药灌下去了,患者说自己要被烧死了。至宝丸里面有朱砂,朱砂能化鬼,说在鬼的领域朱砂就是能杀鬼,能杀人,为什么朱砂有时候辟邪,用来画符。是不是迷信画问号,有人解释了,我不对这个东西的最终结论做评价,大家可以自己评价。过两天又煎药,这个药是鬼见羽,看起来像一个剑的羽毛,像一把剑一样。这个病就好了。为什么选这个医案?我个人读了古今中外的各种医案,我认为这个人写东西比较真实。疾病非常复杂,这个病历做电子病历怎么做?对未来的医生有没有参考建议?我认为某天你遇到了这样一个病人是有参考建议的。他可能没去蛇王庙,他普遍去了动物园,或者去了什么地方回来就是这个症状。
基因组数据大家可以拿到,这是做医学和生物工程最早的一批数据。DNA测序的成本在逐渐的降低,目前七、八百块钱把细胞寄过去就给你结果,告诉你可能得哪种疾病,这个已经完善了,不足的是没有下游的建议,只是告诉你患某种病的可能性是正常人的多少倍,这是最简单的数据处理。这个叫生物信息学数据,因为它很简单,做的很成熟。这里面有一个检错,这是一个发展方向。
图像数据也做的相当不错了,图像数据全靠算法,语音识别因为算法的突破把几十年没干好的事儿干好了。我们做工程不能依赖算法,我们坐等一个算法不可能,我们做的是用目前大家普遍认为最好的算法适应一个应用,这是有前途的做法。图像处理包括存储,计算机有一个非常大的优势,这个优势不是算法多好,有两个事实,一是它可以替人工,可以帮你干力气活儿,有很多片子,比如说肠镜,人的肠子很长,肠镜需要每一厘米就拍一张照片,如果做检查医生要从头看到尾,这种东西才有应用价值,如果一个东西很好找,没有任何可以应用的场景,也不需要我们做技术的突破。正因为几万个片子要找几个才是技术的核心点,如果大家关心过美国的信息检索会议,网页一点进去是一个小孩儿在一大堆文件里找一张纸,从一草垛里面找一根针儿,这是有场景的,从三根针儿里找一根针儿是没有应用场景的。二是比较接近事实。现在任何照片和图片都是在虚拟事实,因为那个东西是三维的,我们看到的是二维,或者我们看到的是二维的一个面儿,你看见任何一个人、一个物体,看不到月亮的另一侧是什么,要想看到就要找工具,所以我们看到的世界是二维的一个面,因此我们用二维的东西,用一个片儿来估计一个关切。我们看到的东西是一个面儿,仍然是有商机的,目前的摄像头只是追准一个物体,但是有很多教学的应用、工业的应用,工业的应用时候是非对称的,但是我们需要双面都需要看到。任何做视频的,考虑到了有其他的地方可以录像就是很大的商机。
临床信息数据是非常马上的,大家都在做,但是依然没有什么办法。临床数据有很多,包括结构化的数据,血红蛋白是多少,谁结构化的数据,还有没有结构化的数据。我们接触过非常多的名医,治疗水平极高,但是不跟做数据的配合,人家说我为什么要配合你,衣食无忧,名利不缺,跟你合作承担各种风险,而且耽误人家看病。人家5、6分钟看完一个,上那个系统,耽误时间,没法合作。这就存在一个问题,机器学习是学庸医还是学名医,学庸医只能学反例,你要学名医,但是名医都不让学。没法让名医结构化数据,怎么办?用技术方法处理非结构化数据。实时的信息是核心,实时的信息缺的值怎么补?要做差值。差值有两种原因,一种是实时数据有问题的时候要补上,还有病人转院实时检测要停掉,这种东西很难补,就是缺失,没法做差值。
数据分析有一个核心就是非结构化数据的结构化,这里面用的技术不仅仅是数据处理,还有另外的应用场景,就是自然语言处理和信息检索,这两部分仍然是英文和中文做非结构化数据结构化核心的东西,不仅仅是数据分析,而是两种技术。各种机器学习的算法来预测各种疾病,这个东西不能解决根本问题,个人觉得写写论文还可以,如果做大规模的实验不会有结果。论文和做事是两码事,论文不能直接做事情。
健康相关的信息是最难拿到的数据。生活中经历过的事情都有可能作为医疗诊断的依据,你让一个会员,让一个用户来买你的云服务,如果只是提到传一个照片、传个简历,传个文件他没兴趣,如果你做了云服务,这个云服务搜集的数据可能对十年之后、二十年之后的诊断结果有帮助这是对人的很大吸引,尤其是对于特别关注自己健康的人和普遍大家对自己的健康关注的人,不同的病人是不一样的,因为我们从数据中发现,经常去医院的是少部分人,这种人没事儿就爱去医院,这人肯定是第一批购买者。有大量的跟健康相关的信息、生活的信息,我们怎么样高效、便捷、合理合法的获取这是大家要思考的问题。
核心问题是非结构化的数据结构化,自然语言的处理非常难,目前有广告做到90%,那只是某一个公司的广告。我做自然语言处理17年,有一个核心的问题是有些术语是不统一的,有些未登录的术语没法处理。另外,这个词蕴含的信息是术语集较本体也好是核心,本体的建立是了解词内涵的核心。在语法层面上羊吃胡萝卜和胡萝卜吃羊符合语法,但是不符合实际情况。你要知道胡萝不是植物,羊是吃草动物。你还要知道吃草动物是吃植物的,这个信息知道了,你就知道羊吃胡萝卜是正确的,但是胡萝卜吃羊是不正确的。我做过中文本体的医学研究,比如说舌苔和颜色的分类,西医不看的症状在中医是要看的。西医一般不会轻易问你大小便,我个人认为对某些疾病的诊断是有帮助的,中医对这些形态列过很好的研究了。我们做过舌苔质地的分类器、舌苔颜色的分类器,所以医学处理的本体很重要,大家如果在某一个领域把本体做好了是非常有应用价值的。
信息检索是从文件中找东西,有什么用途?第一,它可以从论文里找东西,因为现在肿瘤的诊断在西方有大量的公司在做,西方肿瘤论文的检索,支持的显然是非结构的,论文是没有结构的,结构化检索不叫检索,就是自然语言的检索。美国和西欧肿瘤医生最近的研究,某一种特意病人特意肿瘤的某种治疗方案究竟是什么样?所以做医疗论文的信息检索是我们要做的。病人的信息检索,2016年是一个很新的方向,你看过的病人,或者所有人看过的病人有没有这样的,因为有的病人不写到论文里,写到论文里的是少部分。我用论文的东西做过一部分工作,论文里面的优点是特别全,因为为了写这篇论文,恨不得把那个人祖孙三代都写清楚,信息数据、时间非常清楚,远远要比医疗档案清楚,所以大家如果想做检索或者想做数据挖掘,不妨把注意力多放到论文里面,论文是一个很重要的数据来源。非结构化数据的结构化问题,自然语言处理和信息检索是很重要的。
做数据的人心里要有一个概念,这个概念是说我处理的是数据,这个数据你给我的时候,尽可能反映客观事实,但是数据本身就可能不反映客观事实,这是有差别的。哪怕数据完全是反映客观事实的,可能也是偏颇的,或者说对整个场景,在知道信息非常有限的时候,有可能做出非常差的结论。
图上四组数据非常简单,每一个点就是一个二维的坐标,X、Y两个值。这四组数据做统计学的话,会发现第一它们的均值相等,方差相等,用线性回归之后会发现得出来的线都是一样的,R的平方都是一样的,但是这四组数据是文化不一样的。也就是说,在给我一个数据的时候,我用尽了现在的方法可能得出的结论是错误的。大家要清楚这一点,这说明我们做数据分析仅仅在方法上有很多限制,所以必须要了解它的应用。
其次测量是有局限的。最简单的一个例子是光学显微镜,它能看清楚的东西是光的波长,电子显微镜是电子波的波长,这是一个哲学的问题。人类对细微世界的探索是没有限制的,电子波的波长那么大,我们就一个波的频率不断地增加,波长不断地减少,人类看最细微的东西有没有极限,突然发现有极限了,为什么?因为波长小到一定程度,频率非常高,这个波的能量非常高,把观测路径打穿了,所以人类看最小的东西是有极限的。我们计算能力是不是有极限?宇宙中所有的东西加起来,一个例子表现出没有太多的存储空间,某个问题的复杂度比那个高显然不可解。
人是有自由意志的,人的自由意志是不是存在,大家众说纷纭。我站在这里,下一秒我站在左腿还是右腿,把所有的信息都找到,把我大脑里所有的信息都拿到,能不能测出来,这是问号。我可以告诉你,这个事儿已经测出来,我马上就可以证伪。如果人类意志真的存在,我们得到的那部分数据不是真实的,或者说数据处理能力的是有限的。
医生面临的问题跟其他领域是重叠的。中国做医学信息学的比较少,时间比较短,大家说我过去是做零售店的,我做汽车,我做化工,我本人做过很长时间的能源领域工作。我是研究漏油和环境污染的,怎么把它放到医学上?你学的数据处理技术能不能在其他领域应用?简单提醒一下大家。今天我说的每一句话,都是干货。
一是医院排班儿的问题,医院排班儿跟零售店排班儿没区别。
二是电子病历的统一和普及。跟电子交易数据是一个道理,医院不仅仅用病历也用交易数据,因为有保险,保险公司可能比医院更迫切的电子病历的信息化、处理化、预测、计算、估计。
三是实时提醒。某种特殊情况下的病人来提醒医生和已经出院的病人如何预测他的ROR非常重要,尤其是心脏病人,北京有医院在做实时提醒。
四是防止药物滥用。这是治疗方案的规范化,尤其是对于肿瘤。我们对于肿瘤的治疗没有统一的规范,这是未来发展的场景。这跟中国的资源分布不平衡有关,这里面有大量的商机,中国最好的医院在极少数的几个城市,CT花钱就可以买,在小城市的某个医院可以有片子,但是医生判断片子不是很确定,因此把专家的治疗意见学习了指导他,这个医生都不用担责任。
五是战略计划与流行病。这是做大数据举的最多的例子。
六是远程医疗,除了把医生的意见做成机器学习的分类器,还可以做远程医疗,这是解决了4S店的问题,4S店给汽车排解困难,雇了一个老工程师,这个老工程师在一个店没有活儿,但是他非常昂贵,因为他有三五十年机械领域的经验,可以用远程的方式,让他负责一个大区域的4S店。
七是减少就诊和急诊,医疗知识的普及化,大家上网搜要保证网上真的是可靠的医疗知识,国外做到了,而且很准确。有很多人看的是急诊,因为急诊好挂号,实际上不是急诊,80%都不用来医院,有非常少部分才是真正的急诊。
医学界、营养学界和人类面临的问题。所有的信息都要快捷、合法的拿到,这是未来。医生对病人的诊断不仅针对于目前的症状和短时间内,要针对几十年影响健康的经历。
医生的营养学修养,有很多病不需要用药物治疗,有过度医疗的问题,可以用简单的方法解决,可以先用营养学的方法解决。但是营养学没有数据,所有维生素矿物质究竟是怎么代谢,代谢多少现在没有数据,这些都是空白。
药理学的发展,MOA的突破,很多药物怎么作用于人是不知道的。最有效的治理不见得是最合适的治疗,有些地方,有些病是做不了手术的,大家有兴趣的话可以找网上找医疗纠纷。我个人认为西药有很多东西,因为它有显著差异了,因为它的药性太狠了,这个东西是有效,但是实际上人是受不了的,有很多药,有很多甜味剂当时发现是可靠的,但是发现会导致癌症。现在国际上用的甜味剂,带糖不是糖的东西,60年代就发现了两个,一个是研究胃溃疡药的医生,他们在午饭的时候发现妻子给他们带的三明治非常甜,后来回去问妻子,妻子说20年都是这么做的。后来他们回去研究,发现跟胃溃疡的药有关系。
心理作用与安慰剂,安慰剂的研究也有,我个人认为这是医学能突破的很大的东西,这个实验很安全。伟哥的发现并不是治疗ED的药物,而是治疗心血管疾病的药物。安慰剂这个东西特别有意思,给人大药片效果就好,色彩鲜艳的搞片效果好。如果一个能用安慰剂治疗好病人的医生,肯定是名医。我个人鼓励于很多医生能用淀粉给病人的慢性病治好,这是好事儿。我们做大数据的处理就是对人和自然的不停歇的探索。
提问:您说西医对于治疗的约束很强,从国家的角度,在人工智能跟中医的结合是不是有可能?
王大禹:对于一个固定疾病的治疗方法的学习,西医是不用学的,西医说这我都知道,我不这么看执照都没了,教科书就是这么教我的,这是固定的。如果学习某一个疾病,或者某一些症状的治疗方法,中医有可能是不同的东西,西医是固定的。
提问:看舌苔的颜色,如果两个摄像头拍出来的颜色不一样,让机器去诊断,这怎么办?
王大禹:您说的是苔色电子化的问题,怎么做图像处理。这也有办法有一个色卡,或者说准确的定义光的背景。这个问题几年前有一个人问过我,他在做医学图像化处理,我说最简单的方法是准备一个崭新的100元现金,大家都有,把它拿出来放在舌头旁边,跟舌头一起拍照试一试,后来发现还不错,做了一些小规模的可研领域的实践。
提问:我是天津人,我的工作领域也是医药健康领域自然语言的处理,对于您说的“趔趄”这件事体会特别多。在实际工作中发现南方也有一些非常有意思的中文语言的特殊的对疾病的描述,我们在一些跨国公司的合作中也遇到非常优秀得国外做的公司,他们根本做不了国内,技术上大家都一样,但是我们唯一的优势是有人工智能编辑的20人团队,我们现在的方向是不是对?第一,发现现在的标签都是自然分词,包括NLP处理引擎,非常有局限性,不光是医学词汇,而是口语词汇,加上方言。注重东西让我们自己用一个标签词库加进去,我们把自己总结出来的人工团队的标签,以前没有大数据处理工具这么的普及,现在进行加工和分析,现在遇到的问题是,没有任何一个算法能简化这个环节,仍然靠人制定标签库、字典文件,这个字典文件加进去不是来自医院HIS系统的数据,是患者在网上提到和医生互动过程中的问诊数据以及社交数据,提到的和疾病治疗和自己的健康状况和行为状况有关的数据,同时还会有穿戴设备收集到数据进行叠加,看看他的生活习惯和社交网络上暴露的信息,疾病的治疗、康复意愿。既然都是网络上面散乱的信息,没有办法在输入端进行,我们现在是靠人工的团队不停地打标签,让机器在学习的时候把信息加进去,效率仍然很低,没有办法打破人工环节。我想知道有没有更好的方法?
王大禹:那么多做机器学习、做数据分析,其实都不是最主要的工作,最主要的工作是标数据,一个人工智能公司80%的团队的精力放在数据标注上,完全是正确的。包括我们做的图像处理。您说的问题,我总结一下,未登录词的获取问题是一个很经典的问题,个人觉得有两个办法来解决。第一,你可以做抽取,抽取的是没有范围的口语化的信息,抽取以后把里面的词跟已有的东西进行比较,把没有在词典里发现的词找到,这样就缩小了,有5、8%的词没有找到,可以进行分类,用语言的信息做分类,看前后词、出现的场景、出现的位置和频率来判定是不是跟医疗相关的词,把它补充进来。第二,你在已经想处理的词语中发现没有登录词,可以给他另外一个标签。你可以把未登录词做聚类,把所有未登录词分成十类,有一类可能是地名,有一类词可能是气管某个位置,某一个词是程度性的副词,把它进行粗糙的分类,分类之后那个词所在的位置没有明确的标签,只是模糊的标签。我们原来做语音很大的问题是语音中有空白,就有新的语言模型,一些新的学习模型出来,专门识别语言之间的空白。你这个也可以做成空白,只是加了一些信息,不是单纯的未登录词,是某一类未登录词。科大讯飞有很多语料数据,可以跟他们获取,或者是合作,也是一个办法。
提问:您前面讲到了信息分析,以统计学来看的话,如果在大数据挖掘中结合统计学的信息分析方式,包括定性、定量分析,在原来有的医生病历里可不可以融入进去,不用重新做。如果用人工智能做精准挖掘,做数学模型的话,可不可以解释信息不符合中医或者西医的诊断模式?如果用一个比较前沿的方式讲人工智能,多少有什么方式不用那么多的海量数据去找寻,从病理的医学找出数学模型,找出可能发生的真正原因点。
王大禹:你提到的方法论的问题,大家都在做黑盒,我们可能不想知道盒子里面是什么,或者我们不可能知道盒子里面是什么。总典型的是神经元网络,你很难解释,不知道哪一层是干什么的,如果是用决策柱出来的大家很容易解释。但是NN和什么东西是好用的,我们可能没有办法知道它为什么或用,但是我们可以用。另外,您说的诊断问题,不觉得诊断不是最主要的,我们希望直接从症状到治疗方式,无论你把这些症状叫什么病,并不重要,我们也有病的分类,像国际疾病临床分类,这个只是我们便于交流的方式,实际对于诊断我个人认为不是那么重要,你只要把一些症状直接到最后一步的解决方案也是可以的,因为有些病给他一个名字没有意义,就是一个症状。中间的问题都可以回避。
医疗数据的量不用担心,今天我光讲技术,没有行政的东西。有时间数据质量不好,但是的确有数据,量不用担心。数据量太大怎么办?目前来说,属性值并不是太多,按照理想化的讲解,介绍的这个,可能要加入的属性值更多,包括生活中的东西,面临 的问题是机器学习领域的特征抽取的问题,肯定得用一些办法能做。目前我了解到,PCA和LDA,尤其是PCA是最好的,PCA属于因素分析里面常用的方法,该主源分析,目的是从100个属性中抽取一部分,或者把这100个属性映射到10个属性,让这10个属性代替100个属性的信息,我就处理这10个属性。这是非常重要的一步,至于后面训练什么学习算法,分类器的问题,谁也不知道,就去试吧,都是现成的。这是对应用领域常见的理解,究竟哪些属性可能起作用,人可能得知道一下。举的例子,比如说我在这个平面上做匀速圆周运动,这个运动非常好描述,把圆心表述了,半径描述了,限速描述了,如果有100个摄像头拍三维数据,就可以拿100个有时间轴的数据,我们最终想得到的是100个摄像头的位置,只需要从上到下垂直于地面的摄像头拍摄就可以囊括所有的信息了。我们做很多事情的目的是通过100个没有鲜艳知识摄像头的结果代替一个从上到下的摄像头,这是理想化。如果是斜的,这个摄像头也能是携带100个摄像头的信息。做数据分析和机器学习,对应用领域的了解非常必要,它可以给我们很多指导,比纯用数学方法指导高效得多。
提问:有一个问题想请教余博士。前一阵国务院发的《新一代人工智能发展规划》中对智能医疗提到了很多相应的应用领域,比如说包含了智慧医院的建设、手术机器人、智能诊疗助手、温性穿戴设备、新药研发,您觉得哪些产业是近三年爆发的比较快速,而且能够应用的比较广泛?您有没有近期、远期的排序?
余中:这是一个非常好的问题,这就是预测,预测非常重要。人工智能用在健康医疗这个领域,目前从单点技术的角度来讲,从可穿戴设备,新一代人工智能发展规划中提到的那些方面,我认为都是非常可能在相对比较短的时间里能够实现的,相对比较短我指的是三年,这三年时间里我就知道好几款所谓的柔性的可穿戴设备做生命体征的监测。现在整个发展趋势,把原先只会在医院的化验科所做的生理生化检测,目前很多POC检测设备,目前已经有大量的团队在做。两个星期我在硅谷见了一批公司,有很多原来觉得不可能,只能在医院实验室做的事情,现在基本上都往个人方向发展,自己就可以监测,同时把自己的数据传上来。这方面的技术发展非常快,这一点都不奇怪,任何一个大的变革来的时候都是因为一个国家或者社会产生共识,当社会产生共识的时候,这件事是必须要做的,而且有巨大的发展前景,这个时候社会的资源,无论是我们所说的智力还是金钱,成建制的,大规模的投入进来的话,一定会产生新的变革。所以这样一个变革我认为在接下来的三年之内,我们所说的事情都有可能实现。比如说机器人,如果我们从通用机器人的角度来讲,我们已经做了好几年,我们也跟全球最重要的做机器人的公司,或者做机器智能的公司合作一块儿做,我们发现其实机器人的发展很大程度是定义一个场景,到底什么样的场景需要机器人,当我们把场景定义的非常好,以应用服务回过来驱动机器人的发展,这是必须的。如果空谈要做一个机器人,也可以做出很多概念,也可以根据这些概念开发相应的技术,但是可能会非常难。如果你加了边界条件,也就是说有了应用场景,这个时候设计的机器人只要在一些方面进行优化,把相应的技术在全球范围内进行整合,就完全可以做到。通用的机器人不是特别难,但是我所提到的全科医生智能助手,专科医生的秘书,在家庭里面的老人的智能伴侣,从医养结合的角度来说,一旦定义好了之后这个事儿完全可以做。在后面的三年时间,我们过去所谈的事情可以实现。
吴云霞:2017年大数据与生物医学论坛上虽然有6位专家演讲,在人工智能、PCIC一体化、数据的收集、查体后数据的再利用等方面,特别感同身受的是患者主诉的主观性。精彩的演讲给大数据与生物医学论坛画上了圆满的句号,希望我们明年再见面,同时我们明年可能会有很多的主题,希望大家多多关注CDA亿数据分析师平台。谢谢大家!
上午的环节就到此结束了,谢谢。
扫码加好友,拉您进群



收藏
