2017年中国数据分析师行业峰会:数据可视化与商业BI_分会场(七)
主题:数据可视化与商业BI
时间:2017年7月29日下午
地点:中国大饭店
主持人:各位嘉宾、各位参会人员,请大家准备就坐,下午的分会场就要开始了。大家下午好,欢迎大家来到由我们CDAS2017所主办的中国数据分析师行业峰会,想必大家在上午收获颇丰,下午的分会场也不会让大家失望,分会场是以数据可视化与商业BI作为我们的主题,我们将会邀请很多业界大咖分享他们在行业内的心得,我们CDA也做三大运营商、中国银行、招商银行、华为和苏宁,我们都与他们有培训服务项目,如果大家有兴趣的话可以来了解,作为一个大数据的时代,这些庞大的数据其实都非常的枯燥和乏味,有时候我们看到这些庞大的数据无从下手,数据可视化就是数据分析极为关键的一步,因为只有通过数据可视化才能给我们呈现一个直观的业绩,让我们从这些庞大的数据当中看到它的价值,所以这其实就是我们整个下午的主题。我就废话不多说,首先有请第一位嘉宾,让我们有请北京数字冰雹信息技术有限公司副总经理丁冬先生,为我们带来“大数据可视决策的行业应用”。
丁冬:谢谢主持人,非常高兴今天能有机会面对大家,给大家做一个分享,首先简单介绍一下我自己,我来自数字冰雹公司,数字冰雹是一家专门从事数据可视化业务的,提供大数据可视化相关的产品以及相关服务的一家企业,我们公司是06年成立的,聚焦可视化领域有八九年成立的,一开始做的时候名称没有像现在这样大家都知道有数据可视化领域,但是我们那个时候做的基本都是帮一些行业用户做可视化实施,帮他做行业专业的数据,通过这种可视化的方式给大家呈现出来。
所以我们在这里面也积累了一定的经验,也就是说,我今天分享的这些内容实际上可以大家看到我的标题写的叫做“可视化决策”,实际上更多我们落地的都是面向这个行业的用户,也就是说给这个行业如何应用可视化的产品以及相关的服务。
下面就开始切入我今天演讲的主题,首先我们如何感性的认识一下可视化到底是什么,我们简单的分了三点,第一个直观的看可视化是长什么样的;二、它为什么会存在;三、它简单的特征是什么样子的。
我们会看几个视频,这里面就是分几个不同的形态,看一看我们曾经实施过的可视化的系统大概是什么样的。(视频)第一个视频我们做的是全球100年的地震数据的可视化的系统,这里面实际上把我们从互联网上取到的全球地震的基础的数据,带入到我们的系统里面给大家呈现出来。大家可以看到下面显示的日期,也就是说现在看到的是哪一年哪一月,上面可以看到整个地球上有很多红色的点在闪亮,闪亮的每一个点都是一次地震的数据,这个闪亮的点的大小就是象征着这次地震的强度是什么样子的。大家可以看到几乎地球上很多地方每个月都在发生地震,而且其实如果通过这样一个形态看到的话,大家可以很清晰的看到所谓地震带的存在。大家可能在传统学习当中只是从书本上看到有所谓的地震带,比如可能画出来地震带在什么位置,通过这个系统可以看到频繁在这一条线上有地震的发生,这样一个手段就是把咱们以前在书本上看到的一些数据,或者说在客观上存在的一些数据,通过可视化的形式很快速的直接把这个数据的规律就呈现出来了。
大家也可以看到现在时间接近于2008年了,我们可以聚焦一下看一看中国大陆的情况。2008年的5月可以看到四川汶川地震,之后是一次非常强烈的地震之后,持续的在附近的区域还是有余震,其实持续了有两三年的时间,这也就是所谓的大震之后有小震,余震不断,这也是通过可视化的形式,几乎十几秒之内就能够看到了。
大家看下一个视频(视频)。这个视频是我们做的一个全球人造卫星的或者叫做空间飞行器的整体的态势的可视化,这里面我们更偏重于看到一个仿真的地球,在这个仿真的地球外部空间里面有多少卫星,密密麻麻的分布在地球比较近的位置的,就是近地卫星,围绕整个这一圈分布非常有规律的就是所谓的同步卫星,同步卫星都是围绕着赤道面运行的,有一个远距离空间分布的就是远轨卫星,这里可以通过直观手段看到卫星是什么样子的,有什么数量级,我们近距离观察的时候还可以观察到某个空间站的情况,以美国著名的国际空间站IIS做了一个例子,我们通过建模实现了高仿真的空间视线,从刚才那个视角,全球整体的视角到一个空间的视角,在我们平台里是通过统一的可视化的视频实现的,可以把整体的宏观态势和具体某一个设施、某一个车辆等等单体的设施再同一个视频里做这个,大家可以看到,这个空间站上所有的阴影和太阳之间实际上是哪里有光照形成了阴影,现在可以看到中间拉远以后看到的是刚才那个视频,整个地球外部空间所有的飞行器。逐渐的视角拉近会加载模型,这就是IEG技术在可视化的应用了。大家可以看到所有空间站上可动的位置在我们平台里都可以称之为关节,任何一个关节都是可以实时驱动的,大家看到把刚才的回放速度加快以后可以看到太阳板是在旋转的,旋转的规律是它始终是基于一个底层的仿真模型数据在进行它的移动规律,而这个实际上是最简单的仿真模型,仿真的输入是它跟太阳能之间的关系,还要保持太阳能板实时处于阳光来的方向。
刚才除了看到一个整体分布规律,还可以看到具体跟踪细节运动的太阳是什么样的。继续下一个视频。
(视频)最后是一个比较接近于大家日常生活的案例就是我们面向城市应用的平台,这里面可以看到,这里面综合了空间,把我们静态的地标数据、动态的目标点的跟踪数据、整体的数据、还有一些统计数据、右边看的是大的单项指标项,统一呈现。这里可以看到当我开始历史数据跟踪回放的时候可以看到整个地图上出现一些小的点,那实际上是把这个代入了一段时间运行的数据,每辆出租车运行的位置,总体在这个时间里头,所有的运行的车辆总数、行驶距离数、搭载乘客数,这样一个数据可以看到在整个城市空间里面所有数据卫星的态势,又结合整体的数据情况,这是综合数据态势以及应用规律发掘的基本形态,至于怎么应用于行业服务的,会在具体的分布里讲。
下面再讲一讲稍微流一点的东西,刚才讲的是可视化基本的印象是什么样的,这里讲可视化为什么要存在,我们会提到人是可以做主讯息的,这里假设一下人是关在黑屋子里的,只能通过一些手段获得外部的信息传递给我们,为我们提供一个无论是做判断也好还是我们想了解一个事情外面发生了什么也好,都是通过特定的手段的,都是一些感官手段,无非是视觉、听觉、嗅觉、味觉、触觉等等,其实真正获取有效信息的手段更多。一般来讲现在常用的就是视觉和听觉,其他的手段可能也许现在在某些特定领域可以有一些应用比如说触觉,对于盲人来说如果要想阅读就是靠触觉实现的。
对于大多数人来讲听觉和视觉会更多一些用于信息获取,而且不同的手段有不同的策略比如听觉来讲,它获取信息的手段是串起来的,大家听我讲事情是一字一句说出来的,大家无法快速的知道我10分钟之后要讲的是什么,而通过视觉这个手段就可以有串行和并行两种方式,串行也点像数据表格的背景,可以通过数据表格阅读出来数据是怎么发生变化的,分布规律是怎么样子的,但是这个数据是串行,而通过图形化的可视化手段可以把这个数据的形态变成一种并行的数据手段,比如刚才可以看到,整个在全球卫星的分布态势,并不是一个个的让大家看到第一个卫星在什么位置、第二个卫星什么位置,而是同时看到所有卫星的位置,至于它是否有什么分布,我不需要给大家描述一下它的轨道函数是什么样子,而是让大家看到所有的卫星在哪里,大家就可以得出一个结论,卫星大概是什么样的分布形态。
实际上也就是说通过这种图形化的可视化的手段就具备一些天然的优势,也就是说它可以通过这种手段大量的、清晰的表达这样一个数据的传递,而且从当前的应用手段来讲它还是比较成熟的,我们所讲的可视化就是这样的过程,把人难以快速获取的数据信息通过更直观更快速的方式让人获取。
最后看一点这个叫做数据化的简单特征,从三个方面,咱们讲讲数据的可视化会体现出哪些特点来?首先功能来讲,我们做可视化首先要做到艺术呈现要好看,高效传达它是要保证是有用的,不简单给大家传达一个话还要允许用户随着业务的需求交互数据后面的规律。
从使用人员来讲可以看到它面向不同的类型一般来讲在可视化业务里有三种:运维监测人员、分析调查人员、指挥决策人员,他需要从顶层的角度去把握数据之间的整体规律是什么样子的,做出最终的决策。
从应用场景来讲也分成三类,一类是监测指挥,就是咱们一般常见的指挥中心、监测中心,还有一类是分析研判,和使用人群的第二类是有关系的,在特定交互分析的环境实际上是偏业务应用的场景,还有一类是汇报展示,这个更多的是在国内应用的比较多一点,是面向领导,需要呈现一下咱们工作历年来建设的一个成果、信息化的成果、数据建设的成果,通过什么样的手段能够更快速的把整个体系的价值呈现出来,可视化是很便捷的手段。
第二大部分我们来分部分深入的看一看从可视化它的技术都包括哪些方面,包括三块:
渲染是做可视化手段里面最基础的技术实现的能力,首先它可以从这个形态讲分几类,单态图、统计图、分布图、关系图、空间图、时间图组态图,所谓单态图就是对数据直接观察,像城市出车的视频里看到的一样,有几最直接的数据的展现,它有多少辆车跑多少公里了就是单一的状态,统计图就是常见的,无论是柱状图、折线图,实际上是把数据统计之后再看它有什么规律。分布图是一些空间和逻辑相关一下,空间用的比较多,比如刚才看到的卫星、车辆、出租车它的实施位置就是它的情况,这是分布图。关系图是带有逻辑拓扑,相关联这样的东西。空间和时间是我们对数据进行观察最重要的两个维度,会针对这两个维度有一些特定的图形化表达方式,而组态则是一般面向工业、机械或者等等相关的一个装备设备的可视化。而把这些内容综合起来,通过一个可视化的集合的页面来呈现的话一般就叫做数据架构舱。
下面我们看看不同的呈现形式上是什么样子的。现在看到的就是一个关系图,再对比一下,它实际上是我们之前给一个税务系统做的应用,也就是说我们在不同的企业实体之间它的业务往来开发的关系,我们要通过这样一个关系去找他们之间会不会通过虚开发票、通过什么手段、通过非法避税的手段,实际上这是一个应用,它实际上是把不同的实体之间存在的业务逻辑关系,通过点线之间的方式呈现出来。
而如图这个是刚才看到的空间卫星分布态势的,视频里播放过了,这里就不看了。
空间关系的另外一个应用是我们对网络攻击态势常见的,可以看这个视频,这里面讲到的不简单只是一个分布,而是带有一个关系的分布,可以看到我们这里面大量的数据是网络安全检测到的攻击数据,不同的节点之间,从某一个地方向其他地方检测到所有攻击数据,因为做案例的时候为了演示所以切换的比较快,没有针对某一个城市,而是轮着把一个时间,通过这种手段呈现出来。
大家也可以看到我们可以称之为整体数据架构舱的东西是通过一个关系图作为底,又配上其他的形式,包括统计图、单态图做了这样一个综合的应用。
如图这个看到的就是组态,组态的应用刚才提到了是面向工业应用,这样的做的是工业机器人机械臂的可视化的演示,这是一个非常简单的机械结构,但是实际上它实现的是有6个参数可以控制它的运动,我们在平台里做了格式分装的模式,传统的我们见到的格式分装和玛雅外面又增加了格式分装,我们在运动关节上加上了属性这个含义,真正做可视化实质的时候只需要把打包好的带有关节属性的文件加载到我们的系统里面,再把所有的数据源里面需要用来驱动这个装备或者这个机械的参数和这个关节进行绑定,非常快速的就能实施好一个组态可视化的应用。实际上这里面可以看到,我们通过6个关节随着时间做运动的时候,可以看到所有关节的运动情况,而且可以看到每个关节下都显示出来的它的当前运动参数的标签。
这个其实还是刚才组态图的综合应用,这个就不说了,等于刚才说的是一个单体的装备,这里看到的是我们对一个生产线进行监控的时候,实际上就是从宏观到微观逐步做数据驱动的观察,整个生产线运行的状况是什么样子的,具体到刚才某一个装备、某一个工段、某一个设备运行的是什么样子的,整个都可以称之为仿真的三维组态。
刚才讲的是可视化渲染技术,下一个小的关键讲的是可视化分析技术。可视化分析技术是在渲染技术的基础上,我们去结合了一定的分析计算模块,这样去把这种最基本的数据进行一些处理、运算之后,得到我们在稍微深一步希望看到的一些指标、一些规律等等这样的数据。我们这里也分成两种类型,一种是把基本的渲染技术和专业分析计算相结合,应用的是基本的渲染技术的应用,我们需要加载下来的是特定行业里面特定业务它的一些运算模型、规律分析等等这样的东西,比如这里包括了统计计算可视分析、关系挖掘的、推演仿真的等等,后面有相应的案例。
还有一种技术是把渲染技术直接和可视化结合,也就是说在我们可视化手段里面会有一方式是不同于简单的只是数据运算,而是结合了可视化的特点直接获取到了一些规律,这些就是可视分析计算。比如说我们要观察数据或者说观察对象它的分布规律是什么样子的、分布热区、最优中心、栅格聚簇等等,这种未必是很好的手段,可能出来的结果还是人很难理解的手段,但是这样的手段直接结合在可视化手段里面非常快速的能传递出来这里边的规律信息,比如热力图,如果只是把热力图以一个方程或者栅格化分布的手段,通过一个文字文件输出给各位的话,恐怕没有人理解是什么意思,但是如果结合在热力图上把地图呈现出来的话,哪个是红色的、哪个是绿的哪个地方热力最高就一目了然。
简单看一下具体的例子:
1、非常传统的BI商业智能数据架构舱的运用的形态,可以简单的看一看。这里面我们也是应用了一些不同的数据来做,比如说这里面看到的是我们把全国100多个主要城市,把环保部发布出来的AQI指数做了一个可视化的分析,实际上也就是说我可以按照不同的所谓维度,维度可能包括时间维度、空间维度、关注它里边的一些逻辑分布维度,把数据按照不同的维度去观察它有些特定的指标,这里边指标我们可以看到一般在这个里边看到的就是它的AQI指数的数值是什么样子的,还有它的空气质量分级是什么样子的。
我在这里面就可以通过交互的分析,在任何一个当前正在观察的图源里面,选中一个图例一条曲线,按照这条曲线它代表的维度同时筛选其他几个指标示图里的数据就可以快速找到这个数据指标在不同维度之间分布的同步规律是什么样子的。比如说按照时间或者按照某一个空气质量等级看它在城市分布的情况是什么样的、分布主要污染物情况是什么样的、通过这个挖掘它里边的具体的分布规律。实际上比如按照同样都是一个污染等级,但是我可以按照它的首要污染物去察看一下,不同的城市它的污染物的分布特征是什么样子的。比如说北京、华北的这些城市,同样都是重度污染的情况下,华北的城市可能主要的污染物是PM2.5,它的污染源实际上可以看到它分布的主要内容是PM2.5就是细颗粒微尘,来源主要是工业污染或者是汽车尾气产生的污染。单独的讲空气质量指数,如果说我们不按照这里的具体一些分布维度观察的话,未必能得到正确的结论。
这一块是我们讲的视频仿真可视分析,这里面主要是面向军工、战场的应用比较多,这里看到的是我们针对战场态势,装备的作战、运行情况做的一个可视化,所有这些看起来像动画一样的东西实际上都是基于实时的数据,根据底层的仿真模型生成的实时数据的情况来呈现出来的,这里面展现出来的内容就包括所有的装备它当前的飞行姿态、受环境的影响,比如飞机在空中受气流扰动的影响、船舶在海面上受海浪的影响等等这些内容。这是面向特定的应用会有特定的应用场景。
这个跟地震的分布规律很相似,是全球300年飓风的分布规律,把自然发生的数据控制可视化的手段呈现,通过可视化的手段可以直接在半分钟到一分钟原点可以看到一些规律,比如这张图可以说明一些问题,可以看到在某些区域飓风非常密集,什么情况底下看着没有飓风的位置是赤道,这个位置所有的飓风发生的方向都是从东向西的,肯定是从赤道向两极,刚开始发生是从东向西,所以受到飓风影响最大的是西海岸,这个只需要从数据代进去就可以快速的得到这些结论,不需要先要累计一些什么样的基础知识。在面向尤其是管理决策层面做这样应用的时候,很多情况下都是顶层决策者未必是每一个细分领域的非常资深的专家,它如果需要做出决策的话需要参照各个不同的业务数据报上来的情况做这种综合的决策,所以如果想让它从每个系统应用数据里得到这样的决策的时候难度比较大,通过顶层的决平台把最重要的指标最直观的形式呈现出来就可以有效的提高它的决策的效率。
如图这也是可视分析,是栅格化的空间分布,这是之前给连通智慧足迹做的一个基于移动基站的数据进行的数据分析。实际上是把所有的移动基站采集到的终端的数据量通过栅格化、热力图这样的分析,叠加在整个空间的范围内,这里边其实就有很多文章可做了,比如根据时间轴分析人流通行的情况、比如根据基站里采集到的手机终端的分类,比如它到底是iphone还是千元以下的廉价机,根据简单的分类看不同手机的使用者他的活动规律在不同的时间段、不同的空间分布规律是什么样的。
如图这个可视分析是我们之前跟电科院合作帮它做了电力的应用,这里看到的数据没有一个是他们的数据,但是当时是为他们服务的,这里看到的出租车历史运营路线及出租车汇集点的分析,叠加越来越粗的就是聚集的块,像星星一样的聚集的地方是出租车经常停车休息的集中的点,我们做这个会聚分析是为了它建充电桩建设提供支持,哪些是传统车辆最集中停车的地方,在这些地方建设充电桩应该是能够达到比较高的建设效果。
最后一个层面讲可视决策的应用支持。在前两个层级可视化渲染技术、分析技术的基础上再结合上业务决策的需求,我们这个时候主要面向的特定的业务领域了。实际上是把可视化专业的手段应用到相应的不同行业里,两个是一横一纵业务的交叉应用,这里会出现两个概念:1、基础的可视化产品。比如我们做的最基础的产品研发都是基础的可视化产品,但是当我们需要跟客户结合做应用的时候就需要给它附上相应的行业属性,结合上它行业决策特定的一些指标数据这些内容把它做成一个行业应用。比如航天战场、智慧城市这个样子。
从具体的应用来讲,简单讲几个不同的应用领域,这是一个面向政府应用的,给国家审计署做的一个项目执行数据的分析决策系统,就是把它的一个审计数据按照不同的维度展开。去观察按照不同的省份、空间、不同时间段里面按照它的具体的逻辑类别分布的一个执行情况。
如图这个是给空间科研做的暗物质卫星“悟空”做的应用,这实际上是在它的指挥中心立宪监测整个暗物质卫星采集数据的情况、实际运行的情况、后期处理等等的可视化的应用。
如图这是给北京公交做应急调度和指挥平台,是根据整个态势观察车辆情况还有相关因素造成的影响,比如降雨、恶劣天气、积水等等可能对它造成影响,对它的业务决策提供相应的支持。
这一块是面向信息安全还有网络平台管理的应用,是给国家信息安全运营中心做的。
还有面向企业商业的应用类似咱们的业务BI平台这样的应用,这样的应用相对传统一些不展开讲了。
最后几点简单讲一下我们可能在可视化应用实施里边的一些经验。
首先关于数据决策系统和传统业务系统之间的关系和它的差别,实际上传统讲信息化建设更多的是建设的传统的业务系统,它服务于是日常业务的运行工作人员信息录入、存储、相应的数据调取,这里面实际上以采集处理数据为主要工作的,我们现在讲可视化应用的层面一般是讲的数据决策系统,更多是做分析、研判、决策等等为主要用途的一个平台。他们对面向用户有差异、它对这个系统的功能和数据的要求也不一样,在传统的应用中遇到的客户情况,很多情况下客户是不太分得清楚这两种业务系统的边界的,它只是知道有这样的可视化平台有它的业务系统,但是区别或者关系是什么,传统的系统是作为基础的数据源存在,我们需要对这个数据进行一定的提取处理作为我们决策数据的支持,称为决策数据层,最后为可视化系统提供相应的支持和服务。应该这么讲,前30年信息化主要的建设成果应该是集中在业务系统范围的,而未来这几十年大数据建设应用的一个成果应该会更多出现在可视决策层面。
从可视化系统或者说可视化决策的一个应用的定位来讲,它会成为客户决策的一个外脑,也就是说把传统的业务系统作为一个信息的采集的手段,最终通过可视化传递给它的决策中枢,成为他进行决策的一个具体的业务支持的内容。当然我们在这个具体的建设当中还有一个所谓双迭代的模型,也就是说在我们做这个可视化系统的时候未必是要把它所有需要的数据、所有的底层业务系统达到一个完备的状态才能进行这样的数据建设,而是说可以在可视化建设的第一期是结合了现有的数据以及未来所需要的规划数据的所谓半真半假,一半是可以直接把实际数据代进来,另外一半要先上模拟数据要先验证一下模型是否能够为他的决策提供支持,在未来得迭代当中再把原来的数据填充进来。基本我今天的分享就到这里,谢谢大家!
主持人:我们知道数据分析是为了更好的决策,谈到企业,企业的数据也需要决策,下面我们谈谈企业的数据分析决策,有请DataHunter的CEO程凯征先生给我们带来“企业数据可视化从0到1”。
程凯征:大家好我先做个简单的自我介绍,我叫程凯征,我们公司名字叫DataHunter,中文名字叫做数列取,意思很简单就是我们帮大家看数据。我今天讲的是针对企业怎么做数据可视化。
因为数据可视化这个概念非常新,里面的东西协调非常多,我们通常会把数据分析和数据可视化混在一起,我今天讲的东西可能偏数据分析的多一些。上一位演讲嘉宾丁老师讲了很多可视化方向的内容,做的东西都很炫,企业在平时的运营过程中其实会产生大量的业务数据,这些业务数据应该怎么去处理、怎么去分析,我想这才是大家比较关注的点。
我先从一个故事讲起来,当然图上的人不是我,只是作为一个背景,这个故事是什么样的呢?我们就说小张大学毕业之后去了一家公司,为什么去这家大公司呢?因为小张自己对数据非常感兴趣,平时在微博、微信、很多媒体资讯平台上看到了很多数据相关的内容,有很多很多很炫酷的数据信息视图,小张决定毕业之后投身到这个行业里面来,进了一家大公司,这家大公司确实有很多很多的业务数据,因为整个业务运行了大概十几二十年,在全国有几十家的分支机构、代理商,公司内的大大小小的业务系统有十几个,小张进去之后很快就开始上手自己相关的业务工作,他直接的领导给他分配了很多的内容,其中有一项是很简单的工作,叫做做日报,怎么做呢?首先需要从各个系统里面把数据打出来、经销商的业务系统、自己的CIM、销售管理系统、财务系统拿到各种各样的业务数据,把这些数据汇集起来进行简单的整理、梳理,梳理完之后把它形成各种各样的图表。并且把这个图表放到excel或者ppt里面拿去给领导做汇报。
这个过程其实在小张的日常生活中会变越来越多,因为随着他的业务越来越熟练,所以他日常的工作从早上出了公司就开始处理数据,处理完数据之后形成各种各样的图表放到ppt里面,下班之前9点钟之前把所有的数据报告全发出去他手里有各种各样业务部门需要的日报、周报、季报还有各种各样临时性的营销活动的报告。
小张过了一段时间之后就比较困惑了,“我是来做数据相关的工作的,确实现在每天进行的工作也都是数据相关的工作”做很多数据的处理、做很多数据的收集、清洗、整理、形成对应的图表,但是分析的工作在哪里?小张发现他没有分析的工作,所有的都是领导说“你帮我看某一个业务指标、怎么计算一个业务指标”这些都是固定的,这个我们把它称为“表哥表妹”的一天,这个大家不要笑,和你们的工作其实是完全一致的,这实际上也是当前企业内的实际的情况。包括了几种很典型特点:
1、数据采集难;首先很多企业它的业务数据汇总业务系统,但是各个业务系统成熟度不一定完整,所以里面的数据因为版本的变化会有很多数据的格式,有些字段没有、有些字段有,数据情况非常非常复杂,甚至有些企业它统计的数据还都是人工填报的,这种情况系实际上数据采集非常困难要把这些数据搜集起来。
2、数据处理;因为数据的质量有问题,所以需要去做大量的数据的清洗工作,ETL的工作,我们作为“表哥表妹”最常打交道的工具就是excel,我们经常要处理各种各样的业务数据,直到把这些数据补充上来之后才能拿它进行各种各样的分析。
3、重复劳动非常多;为什么要重复劳动呢?刚才讲了小张每一天都要做日报、每周做周报、每月做月报、每季做季报,但是这些报告只是数据表,时间变了其他的东西都没有变,但是他依然要做大量的重复劳动;
4、分析结果分享起来也很困难;刚才讲它可能需要通过邮件的方式跟领导做汇报跟其他的同事做分享,大家讨论的内容也没有办法留存,这种就是分享的过程也会变的麻烦。
总结一下,现在企业内的业务或者说数据的现状大概是什么样的呢?首先对于IT人员来讲,我业务系统有很多,每个业务系统可能还有不同的版本,比如我们之前遇到的客户全国有7-8个生产基地,每个基地都有自己的生产管理系统,每个基地的生产管理系统版本基本上都不一样,所以这是企业内的特点,对于IT人员来讲,IT人员经常有一句话叫“我也很无奈”因为所有的系统每个地方都是不一样的,它要把这些数据全部漏洞汇聚起来其实会变的非常困难,对于公司的“表哥表妹”们要拿到这些数据也很困难,最后生生把“表哥表妹”逼成了程序员。对于前端的业务需求变化来讲,IT人员其实也很困难很痛苦,因为我们人手少根本来不及,所以你先等一等,这是IT人员的现状。
我们先讲业务吧,对于业务人员来讲,大家知道现在市场整个变化其实非常非常快,前端可能会每天都会有新的市场的想法,会有各种各样的营销活动,营销活动的数据拿到之后,我希望立刻看到业务对应的报表或者数据报表,这些只能问后端的数据人员要,数据人员也很痛苦他要应付很多重复的工作,同时还要应付业务部门时刻变化的分析需求,这就是当前企业的现状。
对于业务人员还有一个很痛苦的地方,虽然我每一个业务的分析都让后面的数据部门帮我做了分析,但是我很难把所有的比如几个月以来的数据分析全部串起来,很难对以前的业务做一个汇总之后做接下来几个月的预测,这个对于原来企业来讲是非常非常痛苦的。
我们知道国内的现状看一下国外现在是怎么做的,国外其实目前针对企业数据可视化的领域大致来讲大概是两大类的产品;1、实时的业务看板;实时的业务看板其实主要解决的是我刚才讲的“表哥表妹”最痛苦的事情,他们把每一天重复性的数据统计的工作把它变成实时的业务看板,当业务部门有了一个新的业务需求之后,把它做成这样实时dashboard,所有的数据全部是实时更新的,也就意味着动一份的数据报表只要做一次,以后所有的内容全都是更新的,领导要看实时的看,不用问我要对应的东西。多出来的时间做什么呢?
2、探索式的商业智能;这里面其实会引入一个新的概念叫做探索式分析,国外他们数据的基础比国内要好得多,他们其实在整个企业的数据可视化过程里面做了大量的工作,他们现在走的要比国内快很多,快的地方是什么呢?就是在探索式的商业智能,接下来扩展一下探索式的数据分析。
来讲一讲什么是探索式的数据分析?回到刚才我们说的数据报表上面,企业内的数据需求上面,大部分的数据需求其实都是我们把它称为验证式的分析,也就是说我们有一个想法、有一个idea,说我想要知道我们这一个月的利润是怎么样子的,对比我们这一个月的生产成本是什么样的,可能会把这个需求交给我们的数据分析员,他会针对我们的需求产生很多很多的数据报表,这个东西必须首先有个想法,有了想法之后再通过数据做验证,目前大部分企业的数据需求都是这个类型,这个类型的分析方法会需要一个什么样的基础呢?会对数据的质量有很高的要求,为什么这么讲因为我们需要看到最终的结果,所以如果说数据质量有问题,通过标准的模型可能得到一个错误的结果,所以我们会对数据质量反过来有要求。对数据质量有要求之后,对于分析师来讲就很痛苦了,要做很多很多前期的基础工作,这个我们把它称之为验证式的分析。
那么探索式的分析是什么概念呢?探索式的分析在企业中是很模糊的,我并不清楚从这些数据里面找到什么样的规律、找到什么样的模型、它们之间是什么关系,这个叫做探索式分析,它可以通过数据本身呈现出来的内容通过可视化的方法察看这些数据,我们才能够知道这背后的逻辑和数据之间的关联,这是我们称之为探索式分析,探索式分析通常能够让我们的分析人员走到业务部门之前,可能在业务部门发现这个问题之前就告诉他们“你这个地方出问题了”探索式的分析和验证式的分析我们一般把它称之为企业数据分析的一阴一阳,只有阴阳协调了企业内的数据分析才能走上正规。现在企业大部分的分析其实没有探索式分析是瘸腿的。
从企业分析的固定阶段讲首先有报表,日报、周报、季报各种系统的业务报表也好都属于固定式的报表。第二步有很多验证式的分析,这个验证式分析是业务部门会提出来很多很多的想法,有了这些想法之后我们希望通过企业内的各种业务系统的数据整合验证这个系统。第三阶段会进入到实时的业务看板,数据报表然后验证式的数据分析已经没有办法满足我们的需求,可能管理决策层会希望我们实时的能够看到企业的运营状态,我相信其实现在很多公司已经开始在做这个事情了,包括很多互联网的大公司,举个例子,大家可能都看到过天猫双十一销量的大屏,这个其实就是实时业务看板的一部分。我可以告诉大家在阿里的业务里面实时的业务看板还有很多,其他公司也有很多开始做这方面的事情了。再往后一个阶段才会跨入到探索式分析的阶段,我们国内的企业现在基本上都在向第三和第四阶段迈进的过程中;
探索式分析一般在企业的数据分析里面是一个什么样的位置呢?之前其实国内我相信大家肯定也听说过探索式分析的概念,也有很多其他的企业讲过,但是我觉得那些探索式分析的概念没有把整个探索式分析的精髓说出来。
探索式分析应该在企业内处在什么位置?大家看到图中灰色的部分,这部分叫做传统的企业数据流程,业务场景中采集数据,进行数据的ETL,处理完之后有标准的算法模型产生对应的数据可视化结果或者对应的数据层,这是现有很多企业做的标准的数据流程。在这个流程之上其实缺少一个环节是什么?我有一个问题,算法模型和机器学习这些东西是从哪儿来的?很多分析师可能会讲,这是我们针对公司内的业务去做的一些经验的总结,但是这个东西是后法,实际上是先有想法然后再去做总结。在这个过程中我们遗失掉了数据本身蕴含的信息,所以国外现在提出的探索式分析的概念是在这个位置。也就是说我们从数据最初的地方把数据拿进来,让数据告诉我们它里面含有什么样的信息,我们有了这些信息之后去改进算法、改进模型、改进分析的观测角度和指标,然后再反过来发展业务。
探索式分析也可以产生数据可视化的呈现交给管理决策层探讨这个东西是不是对我们业务有影响、有帮助,这才是探索式分析的价值。这么讲大家不理解,我举一个简单的例子,这个例子可能并不恰当,拿垃圾邮件的处理做一个比喻,当然现在垃圾邮件的处理都有很成熟的BS算法或者其他的算法处理,假设你整个系统刚开始运行的时候,我们其实是不知道哪些东西是垃圾邮件的,这个时候我们通过人工把所有这些邮件,比如抽样抽一千封,人为的从中间挑出来20封,说这个是垃圾邮件,这20封怎么挑出来呢?这个过程我们把它称之为“探索式分析的过程”有了这20封垃圾邮件之后会定自己的算法,找到20封垃圾邮件的规律,他们之间有这样的规律我写一个算法放到我的邮件系统里面。接下来这个邮件系统会进入到整个生产的环境,会产生很多过滤出来的垃圾邮件,也会有很多新进来的邮件,在这个过程中根据我的分析再调整我的算法。比如增加我垃圾邮件识别的关键字,从而改进这个算法之后,整个垃圾邮件的识别率会更高。
这个例子其实就是说明,我们探索式分析在最初的模型建立和模型改进上是非常非常有帮助的,这一环目前在很多企业内都是缺失的。那么探索式分析到底应该怎么做呢?不是无迹可循的,实际上它背后有自己的一套理论基础:
1、所有的数据都会有自己的类型我们把它称之为数据类型;
2、各个数据之间其实都有它自己数据之间的关系;这也是我们要去意识到的。
3、有了数据的类型、数据的关系之后我们要找到合理的可视化的呈现方式;
4、通过合理的可视化呈现的方式做报表,做数据探索式的分析。
具体怎么做呢?第一个数据类型;当然这个数据类型不是我们通常在数据库里表达的数据类型,是我们拿到我们的数据之后会把数据分几个类,怎么分类呢首先第一个我们会有叫做“分类数据”,这种数据通常可以帮助我们对这个数据进行分组,进行排序,通常都是文字类型,这个数据我们在统计学上称之为离散的数据,这个大家理解起来有没有问题?如果是做数据分析的相信是没有问题的。
第二类数据我们称之为“量化数据”,量化数据其实是可以测量的,所有数据都是数字,可以是连续的也可以是离散的,比如年龄、某些测量的温度。
第三类数据比较特殊,我们把它称之为“时间数据”这个就不用解释了,我们平时经历了时间,时间为什么说是比较特殊的数据呢?它其实既可以是连续的又可以是离散的,这个讲的稍微深一些,连续的数据大家知道时间都是每秒钟紧紧衔接的,不能跳过某几秒存在,这种情况下我们把时间称之为是连续的数据。时间为什么又可以是离散的数据呢?因为我们时间有各种不同的统计的维度/统计的单位。我们可以按秒统计、也可以按照分钟统计、可以按照月统计、可以按照季度统计,这样的话时间又可以作为一个离散的数据存在。
地理数据就不用提了,北京、上海作为地理的标识也很有用。通常我们拿到这个数据之后会对它进行这四种类型的分类,这四种类型的分类也是我们做了很多很多数据的工作之后总结出来的。
有了这个数据分类之后我们会找到数据之间的关系,这个关系其实会有很多很多种,这个地方只是提出了7种,我们把它称之为数据关系的7种武器,是哪7种呢?
1、简单对比;我希望能看到上个月和这个月销售额的对比的情况。
2、时间序列;时间序列也很简单,就是在一个时间维度上某些统计的数值是怎样变化的。
3、相关性;相关性其实和偏差性可以一块看,这两者是一正一反的,有些数据其实是相关的,有些数据可能和其他的数据都不相关,这些是两个不同的关系。
4、分级排序、分布情况、整体与局部。这7种关系是我们通常能看到的常用的数据关系。
有了这个数据关系之后我们该做什么事情?刚才讲第一步先看到了数据类型,能够看到数据中的一些关系和关联,第三步就需要进行视觉的处理,当然这个视觉处理不是把它变成多炫酷的内容,而是通过视觉帮我们观察数据,这里面有些总结东西,这些总结的内容挺惭愧的,是老外上世纪80年代总结出来的内容,我们直到今天中国在数据可视化的领域里面,我相信超过50%以上的人都不知道这样的规律。
这是一个什么样的规律呢,老外做了什么样的试验呢?这是一篇论文,他们把对于一些数据用不同的视觉方式去表达出来,反过来让受众去判断他原来想表达的数值到底是什么,从而推断出来这些视觉依据哪些是更容易识别的、哪些是不容易识别的,这里面有几个东西:1、排在最靠前的是刻度定位,这是为什么现在很多统计图表都有坐标轴的原因,没有看到几个统计图表是不带坐标轴的,这是排位第一的。
2、第二个容易识别的内容叫做长度,因为我们人眼的视觉对于长度是很容易定位的。
3、方向;我们到底往哪个方向去,是偏左还是偏右。
4、角度;
面积、体积、曲率、阴影、颜色和饱和度。很遗憾颜色排到了倒数第二,为什么这么讲大家可能没有看过统计数据,在座现场的人大概一百多个,我们里边大概10%的人群对于颜色的识别是有问题的,可能有些色弱、可能有些色盲。这是没有办法回避的问题,也就是说当我们做出一个五色斑斓的内容的时候,很有可能有1/10的人看起来是没有感觉的,所以颜色是排除在靠后的位置。饱和度更不用讲了,很多人的视力不好的时候对于色彩饱和度的接受程度也不一样。
在这个地方还要提一下,在很多我们叫做可视化的效果里面,经常会用一些3D的效果,我不是讲其他友商,我举个最简单的例子,当我们把一个标准的饼图变成一个3D立体的效果,谁能够告诉我这个饼图还能不能判断的更准确一些?当我们把一个垂直的饼图放平之后或者放45度角的时候是完全没有办法判断角度和面积的,所以不要迷信3D图形,我们如果从实用角度看很多时候2D才能真正解决问题,但是3D图形有3D图形的用处,老外也做过一个测试/调研。当图形的绘制者知道他自己的图形将要拿出去做宣传的时候,他一定会首先选用3D图形,因为更好看、更炫、更酷,那个东西才更吸引眼球,因为用户看3D图形的时候为什么会吸引眼球呢?他需要花大量的时间,比2D图形更多的时间去做判断,这是我告诉大家为什么人喜欢炫酷的原因,不是因为它真的好看,而是你要花更多时间理解它的意思。
我们回到企业内部这个东西要让老板做决策,千万不要给老板看各种各样诡异3D图形,老板肯定看很久还不知道你要表达什么意思,2D图形在企业内足够解决问题。
刚才讲了数据的类型、数据的关系、视觉处理的依据。有了视觉处理的依据之后我们需要进行图表的选择,很多分析师做图表选择的时候都会犯一些错误,因为不同的图表所表达的含义是不一样的,有些可以用于进行数据的比较和对比,有些可以用于察看数据的组成,有些可以用于察看数据得分析情况。当然我列的并不全,一定要知道它背后的原因有了这些东西之后刚才讲的这部分内容已经挖的比较深了,有了这些东西之后我们其实才能够对数据做我们所说的探索式分析。刚才讲数据本身其实是有类型的,有之间的关系,我们也知道应该用什么样的图形、应该用什么样的视觉效果展示这些数据,也了这个东西之后我们才能真正看到数据内部的含义和价值,这才是企业的探索式分析的方式和方法。
说了这么多东西之后,我们回过头来看,当前中国的企业需要一款什么样的产品去帮助企业完成企业内的数据分析,数据可视化的工作呢?刚才讲了“表哥表妹”讲了探索式分析,国内的企业应该怎么做呢?我们做了一个总结,当然这个总结也不是没有根源的,我们也参考了很多国外行业的发展规律,看了国外很多的研究报告,其中2017年最新的报告大家可以看到在右上角叫做领导者象限里面总共有三家企业,一家是微软,一家是开普若(音),一家是奎内克(音),我们中国企业是不是一步跨入探索式分析还是要先解决数据看板的问题?这里我们做了总结,新一代的企业数据可视化的产品基本上是被几个能力。1、要有自助式的数据处理能力要让“表哥表妹”数据处理很简单,要让他们很容易的把业务抓进来,这是第一个能力。
2、探索式分析的能力,这个一定不能少,我们真正做数据分析工作,其实就是要做探索式的分析,因为验证式的分析做一次就够了,以后让系统自动完成,后面的东西我们更多应该把精力放在思考和完成上面。
3、数据展示和分享的能力。不能把图形贴到PPT里面拿出去给人做分享,分享的时候数据又变了,又要更新,重新做报告。
4、团队协作沟通能力。因为我们不仅仅是一个数据分析师在工作,我们以后可能有几个数据分析师在做协同,各个业务部门之间的人要对业务部门之间的数据要讨论、要沟通,这些都是我们总结出来的标准的能力。
对于数据这一块能力来讲还会有一个很典型的特点,刚才讲领导者象限这些产品,首先它能够整合企业内的各种各样的业务数据,能够联到各种各样的数据库,支持数据网络,数据来源可以多样化,可以支持异构的数据源。另一方面还要支持互联网数据的导入,举个例子,之前有一个客户做农产品交易的系统,手里有大量的农产品交易的数据,农产品交易的数据本身大家可以做一些分析,他们自己有自己的经验、自己的想法,我们帮他们做了很多验证型的内容,但是这不够。我们帮他们把互联网上的天气拿过来、商务部的数据拿进来,商务部是农产品的进出口数据,有了这些数据之后他们就可以预测天气变化对农产品交易价格有什么样的影响,这是有异构数据源支撑的情况下能够做到的很有意思的事情。
第三个一定要支持这些数据的实时的更新,实时导入,不需要人工介入的,这样才能真正意义上做到前端的实时的业务看板。能够解放广大的“表哥表妹”从重复的劳动中解放出来,能够让系统自动的完成这件事情。
第二要探索式分析能力这个刚才讲了,要有智能的图形推荐,根据视觉的判断、视觉呈现的方式,要给用户推荐这些图形,要在不同图形之间来回切换、来回调整观察这些数据。同时要支持做动态的建模,可以建立数据之间各种动态的关联,能够察看数据互相之间的关系。
除了刚才讲的这两个之外第三个是我们要支持交互式的实时的数据展示,这一块是当前很多国内的BI厂商,国内的产品所不具备的能力,所有的数据最后都要呈现在企业管理层面前,这时候才能真正发挥数据的价值。
分享讨论和沟通刚才讲过了,要支持跨屏要手机、平板、PC上都可以看,支持直接导出PPT可以网上、网页上分析,可以支持讨论和时间戳。
除此之外我们这个产品要符合中国的国情,大家知道国内很多企业还是存在汇报工作的需求的,汇报工作的需求就需要我们炫酷的大屏幕、炫酷的数决可视化的呈现,这个少不了。这个也是需要我们把东西投到电视上、LED大屏上,这些也是新一代数据企业的数据可视化分析和展现的平台所需要具备的能力。
最后做一个广告,刚才讲的这些动能我们都有,大家如果想要了解具体的情况,出门右手边就是我们展台,我们DataHunter现在有自己的数据分析系统、针对企业的数据分析系统、数据大屏和数据的技术服务。谢谢大家!
主持人:正如丁先生提到的数据模型、程先生提到的颜色、饱和度之类的,数据可视化是紧密相连的,我感觉如果把数据可视化做到艺术上的程度是特别好的,下面让我们有请IBM资深软件技术顾问贺华先生给我们带来“数据可视化——无限可能的艺术”。
贺华:大家下午好,今天跟大家分享的主题也是关于可视化的,但是我觉得可能说的内容稍微会大一点,主要会涉及到我们在企业里面怎么样做商业智能、怎么样做分析。
今天我会分三个内容跟大家分享:1、我们为什么要做分析?我们的分析在现在的环境下有什么样的变化?2、介绍一下IBM的解决方案;3、看一看我们做的案例。前面的老师介绍了也非常炫。
首先谈一谈现在我们做的商业智能有什么样的变化,我们刚才说了到大数据时代,什么叫大数据?这里有一张图,因为过两天我们国家的建军节90周年了,我们知不知道宇宙产生到底有多长时间?时间很长了,这张图是一个宇宙产生时间的图谱,大概150亿年,宇宙变化产生的时候可以看到图上1234567,不同的时间它产生了很多的变化,有一种说法说宇宙是大爆炸产生的,大爆炸的时候最开始的时间是很快的时间就产生了很多的粒子,温度不断降低形成了很多的星球,实际上这跟现在谈到的大数据的概念是有契合点的,首先时间不断的推移,有些东西很快的产生,产生不同的粒子。
IBM认为大数据实际上是有些特点的,比如说量级会非常大,其实数据一直在有,但是没有把它放到我们可以管控的数据级里,可以看上去数据量不大,但是现在随着各种搜集的手段越来越多数据量越来越大,各种传感器数据、网上日志的数据都会多。
2、时效性;刚刚也看到很多炫酷的3D的图形、那些数据实时产生,交通领域各个领域都会产生很多数据,很快,有些都是毫秒级,这些数据也是大数据时代需要特别关注的。
3、复杂;传统的数据都是属于结构化的数据为多,但是现在半结构化数据包括一些非结构化的数据也越来越多,我们能不能管控得了。
4、精准;精准通常有些行业不会谈到,但是我们说的精准是什么意思呢?我们数据量太多、数据太复杂的话,到底最终要从这些数据中间拿到一些规律的话,哪些才是我们有用的数据?精准是这个意思。
这4个构成了我们大数据的特点,大数据应该怎么样进行分析呢?实际上对于大数据做分析手段蛮多的,首先要把数据给存下来,如图最下面那一层,数据首先要拉出来,由信息系统能够把它保存下来。第二个是怎么样从已保存的数据能够生成我们想要的或者我们想得到的一些规律,中间有一个计算框架,实际上现在有很多的计算框架,以前对于结构化数据有很多数据库来存储,不一样了,有很多所谓mySQL的数据库还有计算分析平台,包括还有很多实时的数据怎么样计算,这些都是属于计算框架层次要解决的问题,我们在其他的分会场谈到的就是在这两块都会有。
来源:CDA数据分析师峰会:数据可视化与商业BI-分会场
有了这两块之后关于数据的应用展现这一块就到了我们分会场所解决的一些问题了,不管你采取什么样的数据计算最终还是要展现的,展现就到了智能分析、可视化内容了。
现在大数据分析它的应用也越来越广泛,应该说是在全方位都会有,大到民生的财会、天气预报、海洋的洋流分析,小到企业的运作、个人的生活,你的个人消费分析的情况是什么样的,学习成绩有哪些方面可以提高的,这些都是大数据分析的应用,应用非常广泛。所以说现在我们说不管怎么样的数据应用,最重要体现价值,价值怎么样展现就是通过各种展现工具,包括可视化,可视化也是我们一个重要的展现方式。
这张图大家看一下是传统的分析方法跟现在的大数据环境下它的分析方法是有些不一引得。这个分析方法刚才前面一位老师也谈到关于Gartner对于BI平台的评估,我这儿也有一个Gartner关于商业智能跟分析它的看法。我们这里有三个圈,第一个圈注重的是传统的企业内部的商业智能平台,这个评估Gartner每年以前都有的,但是从2016年开始,这一块就没有提了,就换成中间那个了,中间这个圈主要指的可视化和数据探索,刚刚的嘉宾展示的Gartner报告,中间做的Gartner报告主要指智能数据发现这一块的评估。除了这两块之外还有一块新的叫做“数据科学”,数据科学实际上是谈到对于数据里面未知模式的探索,通常就是我们所说的启发式的或者我们叫做深度数据探索和深度的数据挖掘的一些分析,这一块专门也有一个模拟象限做统计的。
其实在IBM看来,这三块对于企业来说它的分析都是非常重要的,它涵盖不同的内容和不同的分析方向,不是只有某一个分析方法才有用,实际上我们可以看一下,因为今天谈到的主要是商业智能和可视化,我们最关注的就是前两个圈,后一个圈是在做数据挖掘上比较关注的内容。它的特点是左边的圈还是以传统的报告和仪表盘为主,而且是以IT驱动为主,IT把所有企业内部的数据组织好以后再给业务人员用。中间这些是自助的数据发现和数据可视化,这一块往往强调了更加敏捷,也就是说业务人员希望能够更少的IT介入他自己能够做各种各样的分析。
实际上IBM认为,在大数据环境下面我们要做数据分析是有个渐进的过程的,最开始还是以数据展现或者历史数据的分析为主,这个我们把它相等叫做描述性分析descriptive。第二块再进一步深入叫做预测性分析,有些历史数据发现一些潜在的模式。更高一块的叫做cognitive认知分析,认知分析有点类似于人学到的内容,学到的东西记下来,这个叫做认知分析,实际上现在谈到比较多的深度分析、机器学习其实都要嵌入到认知分析里面去。不管是哪种分析的阶段,最终还要有一个展现的方式。
我们看企业里面是怎么样做分析的?首先传统的做法是各个不同的分析人员、不同的业务人员各司其职,比如一般的业务人员会看一些报表,业务领导可能需要提出一些要求,然后让很多业务人员拿这些信息,业务专家会根据业务领导和普通业务人员的需要组织一些数据出来,这些数据有可能是他拿不到的,要请求IT人员帮助把这个数据拿出来。这种方式其实在现场市场竞争的情况下会碰到一些问题,碰到什么问题呢?业务人员的反应有点慢,因为所有这些数据都是按照传统的做法要IT人员建模、有些数据新进来以后要经过数据清洗、数据转化、数据加载才能到数据中心里做数据分析,不然的话可能是不准确的,再漂亮、炫酷都没有用。这里谈到怎么样能够更快速、更敏捷的把业务人员的诉求能够通过我们的分析平台展示出来,这里谈到怎么样更敏捷的分析,所以对于企业级BI里面实际上这个过程一直在走,从BI发展、从上个世纪八九十年代开始发展到现在,其实这个过程一直要往前走,而且它走的话最主要的是我们业务人员、IT人员是需要互相配合的。以前这种技术手段和理念往往会发现这个过程是比较曲折的,是波浪型的不断的曲折向前发展,业务部门希望能够更快的做好分析,但是IT因为数据越来越多、越来越复杂,希望把整个架构更合理、数据安全、可靠性、一致性能够保证到,企业越来越大还有一些监管的要求、合规的要求,这些都是互相此消彼涨的是互相冲突的。
我们最新的IBM的产品就能够达到这个平衡,这个平衡是怎么样做到的?可以往后面看一看。
首先像传统如果企业里面做分析的话是怎么做的?通常是业务人员发请求、然后IT人员提速,业务跟IT之间实际上是也联系,但是又有矛盾和冲突的,IT人员往往认为,业务人员给他的需求不明确,或者说你给我的定义不明确、给我的数据口径不明确。但是业务人员又会认为IT为什么做这个报表/分析时间要那么长、你的效率那么低。这实际上在任何企业里面刚开始做BI分析都会有这个难题。实际上我们可以换一种思路,我们的业务人员能不能让他自己做分析,他能做的让他自己做,不能做的让IT协助他完成。实际上这种思想在现在的技术条件下是可以实现的。也就是说我们的业务人员也是分等级的,有些业务人员可能只是消费者,只是拿你做好的东西给我,看就OK了,但是有些业务人员能够自己开发一些分析和报表甚至可以做一些比较复杂的模型,包括有些业务人员有IT背景的话还可以做数据挖掘的操作。我们这个平台帮助业务人员自己做探索和分析的话就更好了,实际上在之前Gartner对于商业智能发展的规划里面也有这一点,就是第二个圈里谈到的业务人员能够自己做一些分析、数据探索和可视化分析。我们在这个最新的平台里面能够满足它的要求。
刚才说到我们要避免不同业务人员做出来不同的分析,怎么样避免这个问题?我们需要有一个统一的源数据层,大家基于统一的标准做就不会有问题,业务人员做自己想做的事,你拿到一些外部数据可以直接拿来做分析,我知道我的系统内有哪些数据拿过来直接和外部数据做关联分析就OK,甚至我自己建一些简单的数据模型也OK,这也是业务人员直接可以做的。同时一些高级分析人员可以自己做更加复杂的分析,包括怎么样跟office集成、怎么样把报表和仪表盘到其他的渠道里展示、做绩效评估,让业务人员完全自己做,而且是基于统一的平台,这样就不会有问题了。
最新的产品它有什么样的特点呢?我相信在座的用户应该用过我们原来的产品,原来的产品到十一版本以后做了很大的变化,首先它最新的他们界面是完全重写了,为什么要重写?因为当时我们跟全球很多知名的企业访谈,发现他们其实对于界面的要求BI系统的要求是希望更加简洁、更加应用,同时操作体验希望不要像之前的管理信息系统那样操作比较难用,所以我们整个界面是完全重写的,而且整个技术架构也是根据最新的标准,这个标准是15年出来的,这个标准出来以后相当于在浏览器领域一统江湖,所以我们要按照最新的需求、最新的技术标准重新写了界面。
同时在功能层面增加的很多业务人员能够做一些敏捷分析的功能,包括数据可视化、数据建模、功能都有增加,而且最新的系统在各个平台的展示效果是完全一样的,这也有赖于我们统一的标准。
cognos的一个体系架构,这个体系架构跟分层的架构是没变的,因为cognos10就是企业级的商业平台,只不过到了2015年后看到了很多敏捷BI的需求,所以增加了敏捷BI的模块,红框里面就是目前增加的一些东西。比如可以做一些智能数据探索,也可以做交互式报表,交互式报表是传统的报表说没有的,传统的是比较死的,如果没有交互式功能是没有办法做的,要重新把报表丢给开发人员重新开发,这样反复耗时费力。
同时在可视化方面也有增强,我们的可视化有三个特点,这三个特点也可以跟刚刚嘉宾提到的话题互相学习、交流一下。IBM的可视化是用到自研的专利的引擎叫做RAVE引擎事前的,因为IBM软件里面不只是我们的商业智能平台要用可视化,其他的平台也用多,我们统一用RAVE引擎实现了,它有三个特点:
1、所有这些图形都是动态生成的,动态渲染出来的,像第一位老师看的动态地图、三维地图一样,所有的图形全部都是动态渲染的,所以说给业务人员的感知是很好的,假如你的报表里面、仪表盘里面有些过滤的操作或者过滤器、按纽什么的它的图形都会自动发生变化;
2、所有这些图形是跨平台的,因为我们知道现在除了在桌面上需要做分析,有时候要在手机上、平板上,沃勒手机平板他的编程语言跟桌面windows或者苹果的都不一样,我们用的都是一个标准,你的报表不管生成什么样的图形在所有的平台展示效果是一样的,不需要做任何编辑。
3、关于图形可视化它可以自定义,我们刚刚也看过了,可视化它的应用也非常广,而且它的个性化特别大,不像传统的饼图或者诸状图一成不变都是那样子,但是新的可视化图形真的是越来越多、越来越多,可能不能完全把你能想象到的都准备好,所以这时候IBM提供了这种开发工具,通过这个开发工具可以自己去修改,甚至从零开发,从理论上讲,甚至你想得到的都可以把它做出来。
这个可视化图形是基于地图的,在地图上面有个饼图的展示,只需要把可视化的图形从开发工具里导入进去,它生成标记语言,通过渲染标记语言可以把可视化图形进行自定义,甚至加入公司的LOGO等等,直接修改,修改完直接放到服务器导入进去就可以用了。
我们还是谈到可视化,可视化这一块还有我们新的可视化图形多也不可能把所有的都涵盖进去,现在在国际上面也有一些开源的可视化的图形,D3是全球用的最广的。
最后我看几个界面,这是我们新的门户,大家如果用老版本的话这个门户会眼前一亮,因为原来的老门户是比较朴素的。当然我们这个门户支持可自定义。
如图这是基于新版本的门户做的一个报表,这个报表是一个仪表盘的方式展现的,我们的报表分在线/离线报表,离线报表是可以脱离服务器直接运行的,但是离线报表不是死的报表,它里面包含了数据也包含了一些交互操作。所有的界面这些功能都是业务人员可以直接操作的,如图这是一个数据上传功能,业务人员拿到一些外部数据可以直接上传设计一个数据模块,这个数据模块它实际上是从数据库里拿到的数据表,一拖过来,系统直接分析出它的主外线的关系,把这种关系转换成数据级的关联关系,保存下来可以直接用来设计报表和仪表盘了。
后面是一些交互式仪表盘的事例,待会儿可能花两三分钟给大家看一个视频,其实这些图形都是可以动的,我们的可视化图形也有很多种,内置的就有很多种。而且现在谈多可视化少不了一个维度——地理空间的维度。cognos直接跟MapBox合作,直接把所有的数据放到地图上做展示,而且支持各种模式,卫星模式、街景模式、交通模式都可以,而且现在最新的版本还有讲故事功能,我们经常要跟客户、领导汇报我们分析的结果,可以直接在系统上面做出类似于PPT一样的,直接把我的报表嵌入到小故事里给客户/领导分享。
我们另外一个做数据探索的工具它是完全基于公有云的,是个人做数据探索用的,这个跟业界比较流行的敏捷的BI工具是直接对得上的,它有什么厉害的地方呢?首先刚才也有老师说,做分析的时候要有一个思路、目标才能够往下走,但是这个工具没有目标没有关系,没有目标会告诉你,你的数据里有些什么样的结论出来,在此基础上再做分析就OK了,它的名字叫做watson Analytics,watson开始是IBM的智能机器人,把watson放到前面是说它其实有很多人工智能的技术在里面,首先拿到数据以后,没有目标也没有关系,它会自动分析出来,在此基础上再分析就容易很多了。它里面谈到认知指引的意思。同时它还有一些高级分析的功能,这个高级分析的功能就是刚刚谈到的机器学习,因为机器学习现在很热,必称机器学习,所以这里面嵌入了一些机器学习包括回归算法、决策树、聚类能力,但是这是给业务人员用的,不需要你会统计知识、也不需要编程、不需要代码,只需要把你的业务需求告诉他就OK了,就可以给你做分析了。同时它可以反馈社交媒体的数据,最终把数据给你展示出来,而且支持自然语言识别。因为现在谈到人工智能需要做人机交互,能要跟自然语言交互也很重要,它是可以进行自然语言交互的。非常可惜现在还不支持中文。
如图这是你的数据级可以准备好,当然可能这个数据级数据质量不好没有关系,上传上去以后会自动有一个打分,告诉你这个数据质量好还是不好,紧接着可以对这个数据级做初步的数据质量的处理,比如做一些过滤、筛选,之后再分析就可以了。最终做出来各种排除的图形就可以给大家展示了,当然这里面二维图形比三维图形容易看出一些规律出来,所以这里面大多以二维为主。
这里都有各种行业、各种应用的仪表盘,稍微看一下就好了。
我们的公众号大家如果感兴趣可以扫一下,这里面不单单是我们业务分析的知识,还有一些大数据平台里的数据存储、数据处理都会有。大家可以关注一下。
最后一个是IBM,因为在座的人非常多,刚开始还想交互一下,但是时间有限交互时间没有了,大家可以通过图上的二维码跟我们交互,有什么疑问、服务、产品、需求都可以交互。
最后两三分钟把视频给大家看一下。(视频)
前面是一个离线式仪表盘,都是动态渲染产生的,用户的友好性感知比较好,这个仪表盘是文件,把文件直接用服务器下载下来,但是这个文件里面包含了很多交互式的动作,也包含了数据。
第二个是交互式报表,相对于传统的固定报表而言,左边是列表、右边是两个图形,传统的做法这个报表是死的,但是交互式报表可以在业务人员最终看到的报表基础上,可以做各种交互动作,包括刚才所说的分组、过滤、排序、合计、转换图形都是可以做的,而且在设计报表的时候不用做任何操作。
第三是数据探索业务用户的自助式的仪表盘,这个仪表盘业务人员可以完全自己操作,左边是数据级是一个excel表,当然也可以是其他的数据级或者表这个里面所有的数据项目可以直接通过拖拽方式放到右边,cognos很聪明的会根据你选择的数据项自动选择一个图形展示出来,而且这些图形你也可以修改,这个仪表盘完全是自助的,用户可以拖入多个子仪表,而且多个子仪表完全是跟其他的子仪表互相作用、互相过滤的。这都是操作都交给业务人员就可以,不需要IT人员任何的协作。
同时也可以支持复杂的数据源,像现在的敏捷BI做不到的,我们可以支持多维数据源包括企业级的数据包。
最后介绍的是从数据库的表里拉一些表做成一个数据模块,这个也是业务人员自己操作就OK,这些模块里面涉及到表和表之间的关系是cognos直接从数据库里面探测出来的,当然业务人员可以做一些延伸的指标,比如把数量×单价做收入,把订单数做分组,这些很轻松就可以做到。做完以后可以基于我们已经生成的数据模块做报表去分了,比如可以拉入一些产品系列,我们也可以实时的看到。产品系列、产品类型、订单指标、订单数目、订单收入,只给可以在这个界面上做,包括比较复杂的中国式报表也可以用这个界面做,业务人员可以自己操作。我们刚才所说的我们的目标就是要让业务人员能够更加快捷的做自助分析,同时又能保证数据一致性、企业的技术架构性能是最好的。
主持人:下面有请年轻的永洪科技咨询部总监胡星昱先生为大家“企业级的数据分析”
胡星昱:大家下午好,今天这个会议也是听到了各家厂商非常炫的展示,我们也带来一些我们自己的认识,现在很多公司都在做数据分析这件事也选用了不同的产品,有可能是国际大牌厂商,我们走过很多弯路,最后这个效果也不一定好,我们也反省了一下,到底问题出在哪儿了,有可能底层不好或者是数据应用做的不足还是不贴合需要?有可能在定制化、个性化的功能需求的时候,可能我们自己本身、企业内部的IT人员、服务商无法满足科技化的需求,当然也有可能是在项目成功上线之后,运维护过程中出现了问题。刚上线前两个月大家用的都不错,用户数越来越多、发现平台上的问题越来越多,最后平台的使用性就没有那么好了。
所以我们也总结了一下,大数据时代我们要保证分析项目的成功其实是有几个非常关键的要素的,正是刚才说的几个问题我们总结了一下,平台、应用、服务和运营,我们也起了一个名字叫做PASO,这应该是现在的企业在做数据分析的时候,如果要保证它成功一定要保证这4项,缺一不可。
应用到各行各业里面可以看到,我们在支撑这样4个能力的时候也做了很多相应的实践,首先平台类需要有足够强壮的底层的技术平台来为前端的应用做支撑,两面根据金融行业、制造业、电信、互联网、医药等等各行各业都可以打造成数据应用服务我们的业务需求。同时也会有本地化的二次开发、项目管理、在线支持、客户成功、本地化的咨询保证数据的进展。还有在运营层面可以看到我们已经上的项目是不是有足够的健康度、在使用过程中有哪些报错、哪些不良好的情况,运营是不是不规范?这些都是我们做项目的时候需要考虑的。
这些能力拆开讲每个词都能讲一个会场,今天还是着重在平台方面给大家做介绍。
今天我的分享内容大概分成4块:针对数据平台如何做真正的企业级的自服务数据分析,这个词刚才几位嘉宾都提到了,自服务或者自助式分析,我们定义一下什么是企业级自服务,或者完全企业级自服务的台站还有一个平台帮助大家实现这个功能,还有一个是最佳实践;
接下来先给大家看一个小视频,通过这个视频大家可以看一下到底我们所说的自服务分析是什么样子的。
刚才小视频里讲了一个小故事,大家可以看到在整个视频当中有公司的数据分析师、CFO、CEO分析,它是利用数据分析如何提高我们的业务指标进行业务拓展的场景,从它的分析过程中我们也进行了总结,大家可以看到刚才的数据分析师进行数据分析的时候,做了哪些操作呢?首先他会在已经做好的数据报告上进行交互探索的过程,去寻找到底哪些产品、哪些地区的的销售额记录是靠前/靠后的,这些销售不好的文件他们的产品、成本、利润情况是什么样的,在已经做好的数据报告上进行了探索。接下来有时候我们在已有的报告上并不能找到问题,有时候会找一些新的点、看看地区人口分布的情况是不是从这个地方接入开发新的报告?开发新报告的过程也是我们自服务分析的一部分,最后当已有模型已经无法做支撑的时候是不是还要做新的数据建模?数据建模的过程是否开发给开发人员使用?这是我们企业级自服务分析的三个阶段。
如果我们真正像视频里那样实现业务人员进行探索式分析的,我们企业可以节省掉很多IT投入的成本,当然这些其实无所谓,关键是我们可以节省到很多在业务决策之后试错的成本,以前我们要做一个业务决策是不是还要开发新的报告、用历史数据验证,现在这个过程几秒钟就能够实现了,可以帮助企业更高效的释放数据价值。
要做到真正的让业务人员进行自服务分析的分析,我们也会面临很多的挑战,首先业务用户尤其是没有计算机、IT背景的业务人员他们做什么东西完全不知道,可能看到的是按地区进行数据的排名、按产品排名、哪个用户的数据不正确或者异常,用户分析的思路你是没有办法提前预知的,还有现在情况下很多分析报告还是要依赖IT人员进行开发,这也造成了企业内部每次分析需求提出来都要等几天、几周甚至一些大型金融行业、电信行业要等一两个月才能看到的新的分析报告。
第三点是数据模型和业务逻辑是混淆在一起的,以前做过数据分析的同事都了解,以前很多分析报告是结果级的呈现,这个结果级如何定义是要根据你的分析需求来进行设计、进行数据级的计算。当你的分析需求一旦变化了,可能这个数据级也要进行调整,调整过程是如何实现的,是自己实现还是IT操作人员改代码才能完成?以前的架构里很多是需要IT人员重新进行介入进行代码开发的。
随着现在分析需求越来越多、数据量越来越大、分析维度也越来越多的趋势,整个分析应用给底层IT系统带来的性能压力也是与日俱增的,以前可能分析五六个、六七个维度的时候报表跑的很快,现在数据量比以前翻了五六倍,数据维度变成了十几几十个分析维度,这时候我们系统是否还可以很好的支撑这些运算呢?
永洪为了解决这个问题我们也搭建了自己的一套自服务分析的平台,最底层灰色的部分是我们可以接入的各类的外部的数据源,包括关系型数据库、大数据平台、数据仓库、非结构化的数据都可以进行接入,在这上面可以进行数据建模,就是像视频里看到的。
之后我们可以把数据同步到永洪自己开发的数据加速引擎里,这里可以进行海量数据的实时运算,可以做到百亿级数据的秒及分析,这个还是相当可观的。
最后在前端输出方式可以进行机器查询,或者利用图表挖掘的深度分析的模型输出沃勒分析结果。
当然作为一个企业级应用,在安全性上,比如数据的安全、功能的权限这些都会进行监控,同时整个平台运行的情况也会进行可视化的预警。如果有之前做过IT架构设计的同事会问,把计算引擎放在这儿是什么意思?其实我们把很多大家需要提前预定义好的模型,把定义模型的这件事拆散了放到了业务人员分析的过程中让它自动的系统完成这个模型的定义,也就是说以前可能前一天晚上规定好了,按照不同的市场区域、不同的产品类型把销售额、利润、指标进行汇总。现在可能面对的是交易级的明细数据,也不知道业务人员到底看什么维度、什么指标,在这种完全开放给业务人员使用的平台里面其实建模不能再通过以前的代码实现了,我们会在拖拽出一个维度、指标的时候系统自己运算,永洪通过数据集式、包括列存储、库内计算、内存计算、分布式计算、分布式通讯,我们通过BI算法也在场景里提前做好了代码级的实现,我们对计算任务的分发也做了优化。
最后实现的效果是什么样的?视频过的比较快,我举个例子,比如现在看到的散点图是看到的不同客户的客户健康度的情况,现在客户经理就想针对其中某一个区域的用户进行分析,到底选择哪些用户之前建模的只有完全没有idea,现在在图表上随便一圈,进行了针对这个部分用户的放大的裁判,会怎么样呢?所有的表格、图形都会产生联动效果,会针对我们筛选的用户进行一个现场实时的计算。刚才这些图形在用的过程中都是拖拽式就能完成了,简单应用。用户已经可以做到自己完成数据报告之后也可以进行数据建模的加载,可以通过自服务建模的模块,通过鼠标拖拽的方式把自己想要的维度、指标加入到以前的数据模型中,也可以通过可视化的选项进行异常数据的处理,对于维度、分析指标的扩展、格式的调整。
刚才看到的可视化的建模最终会到加速引擎的步骤中,从原来的数据源根据拖拽的数据模型它的逻辑结构会生成一个逻辑的数据集市,一个没有落地的逻辑模型,根据这个模型里面用到哪些数据、哪些指标耦合到数据集市里,前端业务人员访问的时候,所有的都可以根据数据集市进行现场秒级的响应。
甚至我们有时候会遇到如果业务人员要自己做的建模非常复杂,IT人员没有办法做好预定义模型准备的时候,我们会做一个提前数据的影射,会把他用到的维度、表格都放到数据集市里,他可以现场进行表和表的关联操作,这涉及到一个分布式数据关联的技术,也是我们针对自服务分析的场景专门对这块功能进行的优化,它的特点在于我们可能牺牲了一些现场的计算效果,可能从原来一两点的计算要十几二十几秒,但是它的优势在于很好的利用了分布式计算的优势,保证你的数据量在不断膨胀过程中,我分析的速度并不会根据数据量的增长而增长,可能现在用的是一亿、五亿、十亿、百亿的数据我们依然可以保持非常快速的数据关联操作。
最后在进行部署的时候也会进行集群式的部署,包括在一些数据量不是很大的项目中,可能会用单机或者几个结点的部署,像大家现在看到的4结点的部署,我们大概针对十亿条左右的数据进行现场分析。如果你的企业内部的数据存量非常多,分析人员使用人员也很多的话会采用分布式更大集群的部署会有专门负责数据抽取的集群,比如图上看到的会有底层数据源,专门跟数据库对接的结点,会同步到数据集市结算的结点上,会在主结点进行记录备份,业务用户通过电脑、手机、把控的时候我们会发给主机点,它分配任务这也是我们调优过的计划,在计算结点上执行,每个结点的计算结果再传递给汇总,最终把结果传到前端的业务用户手里。整个过程中可以做到前端用户发出请求3-5秒内可以看到现场计算的结果了。
除了架构上的优化之外我们也做了很多自服务分析,开放的业务人员进行数据分析的项目,这儿其实我们也针对这样的用户场景做了很多的优化,首先是在数据部署上面会把针对自服务分析的场景的数据和原来固定报表的数据进行分离,保证两端的数据在访问的时候不会抢占系统资源。同时对于用户这边,不同用户的优先级也会进行划分,首先大领导开放更高的权限,他访问的系统资源也会更多,有些刚来的新手业务分析人员,为了避免他的一些不太合理的分析请求会限制他的计算资源的使用。
对于用户的行为也会进行约束,比如在实时分析的场景下如果遇到了海量的明细数据的导出,比如我现在想看500万条微信客户清单我想导出来,以前也遇到过这样的需求,这时候也会把它进行分离,在线分析的平台让它进行数据的汇总、数据的探索,清单下载会通过其他的渠道,流式、异部的下载功能实现。
最后我们会发现把自服务分析开放给用户操作以后有很多用户他操作的内容会非常相似,我们会发现很多有共通性的请求,我们动作对于用户行为进行审计,看到每个用户到底在看什么样的数据,做什么样的操作,可以把这些需求提炼出来,反而最后转化成固定报表/固定数据报告的形式。
最后针对权限也会进行非常详细的划分,什么叫最细粒度的权限划分呢?提升到行业级别的权限,什么人看到什么样的指标,什么样的指标不同部门看的时候大家的数据是不一样的,甚至我们的报表页面里有功能菜单,这个人是不是能把现在看到的数据报表分享出去、是否下载下来、能否做数据下钻等等,这些都可以通过权限来进行控制。
刚才讲了很多自服务分析的时候要用到的功能、架构,真正在企业里推广自服务分析还是会很难,我们根据以前的经验教训也学聪明了,总结了一套在企业里面如何推广的步骤:
1、培养用户进行数据交互的习惯,最好的数据报告对业务人员进行培训告诉他们什么样的图形可以进行下钻联动,他们习惯在已经做好的报告上自己发掘下一步数据的变化。
2、给部分用户开放数据报告制作的权限,他们会发现如果数据下钻下去没有我想要的内容可以自己拓展分析需求,让这些人可以自己进行制作,报告可以进行保存、进行分享,把他发现的业务问题分享给自己的部门、其他的同事。
3、进行数据模型,到数据建模、数据报告制作、前端的分析全流程的开放,用户可以从零开始,没有已经既定好了数据模型了,从很多维度指标中选取自己想要的内容,再制作出自己的学习报表,会有这样的学习曲线。
我们为了保证数据分析项目的成功,除了刚才上面说的几点之外永洪也总结了很多经验,包括数据架构上,针对什么样的场景、什么样的请求的数据量,用户并发的数量、数据架构该如何设计,在一些既定的分析需求已经有的情况下面我们需求该如何进行细化的梳理,平台上线后使用规范、运维规范、推广路径应该是什么样的,永洪都进行了非常详细的经验的沉淀。
最后介绍一下公司,永洪科技是12年成立总部在北京,在上海、深圳、成都、武汉都有分公司了,我们核心团队非常专注于大数据技术的开发,公司现在300多人,其中过半都是技术人员。我们现在在各行各业也有很丰富的行业案例,这些案例、项目的经验也是永洪非常宝贵的财富,可以分享给接下来合作的伙伴。
因为时间关系可能我介绍的并不十分详细,如果大家对我们项目、产品有更多兴趣的话可以扫码对产品进行试用。
主持人:下面有请北京华通人商用信息有限公司CEO白欢朋带来“基于地理大数据的商业洞察及应用”。
白欢朋:大家下午好,今天听了一下午BI的东西,一个大的感觉是BI是什么?这是一个看脸的时代,BI是提高了数据的颜值,让数据变的更可爱、更信赖、也更让决策者、让使用者更关注。
我今天跟大家分享的也是BI里面的大家看到的空间大数据,空间大数据大家讲的所有的数据70%有空间的维度,比如家里最近买了一辆新能源电动车图仕,下载了APP,我上班期间我太太刚学会开车,开车把我送回家,我就监测车的位置,这个APP记录了我每一天开车的行踪就形成了一系列的位置数据。
今天跟大家分享的智能系统是把地理信息和BI的结合,我们里面看到好多信息有位置的属性,位置的属性怎么样展示出来又能发现规律的东西。这是今天想分享的。
事实上永洪介绍的案例加多宝是在零售业很好的应用,但是案例中间大家注意到没有?视频里老总发现问题的时候问的是CIO,科技公司应该问的是CMO。
大家都是做数据的,平常觉得数据是很枯燥的工作,老板不见得关注,现在看我们做的工作能转变决策者参考的时候它的价值就大了,刚才一个场景也是这样的,我怎么样能让领导当遇到决策的问题找到原因?在地理营销方面也是一个很好的案例。要想解决地理营销很关键的因素,刚才讲数据的因素是关键,因为我们做分析,数据是原料,首先是数据的,另面是在空间方面怎么样进行地理信息跟位置信息结合起来,当然要做挖掘也要做行业的逻辑,这4个方面就构成了我们讲的地理信息的基础。
这里面可能分析到的,比如常用的,大家想的商圈,刚才也讲了武侯区就是一个商圈,这个商圈里面可以分析它的业态、聚集度、态势,这是我们做一个商圈通常应用的。
解决什么样的问题呢?比如我们发现商圈里面老年人是我们的客户还是中年人是我们的客户,要有人群的情况、消费者特征等等,这是我们讲的当一个企业经营角度上关心它的客户有什么样的客户特征。我们有时候在分析,把每个商圈对商家来讲意味着市场,怎么样把商圈准确的把握?今天时间关系我想用一个案例分析,我不是技术公司,最主要想跟大家分享一下在数据分析角度和维度。
这里面的基础是刚才讲的数据,我们做空间数据最主要的是网格数据,怎么样把更多传统讲的二维数据做成三维的,给它空天化叫做格网数据,把各种经济数据、人口数据、交通数据整合到一个格子里面进行叠加这样发现了问题。这个网格数据是跟地理所合作的。比如大家想想看,现在可以做的空天做到整个数据,中国的数据来可以把960万平方公里不断的网格化,过去这边看到的是平方公里的网格,下边看到的是200×200米的网格,相当于我们在座的位置也可以进行一个网格,有了这些网格怎么样把数据放在格网里面?上面的实体是把人口的数据按照建筑物跟遥感数据结合,把这个数据放在网格里面,有了这样的基础未来就可以做数据的叠加和整合。
这里面有一个基础,空间数据要做的话,数据融合是很大的工作,比如我们讲的人口的数据数据、经济的数据。拿一个案例来讲,我们的客户想在北京地区有好多加油站,他要对加油站的经营效果进行评估,这里边假如要做一个加油站的客流分析、经营效率的分析,需要用到什么数据?比如经济数据、人口数据、星聚点数据、环境数据、汽车数据等等,空间数据有个好的,只要你想到的,任何经营结果绝对不是单因素,应该是多因素的,像今天有个同志讲要做探索式分析,要分析哪个因素对结果影响最大,首先要把因素叠加上去分析。
大家可以看一下,我们通常在一个空间数据里的例子,怎么样考虑网点优化?首先要考虑通常的需求来自于网点分析,每一年都要做排名,比如每个营业网点做排名,这个排名通常反映的是结果,要找原因,刚才也是在找原因。这里面空间数据很大的好处是在于我们要分析这个网点的好坏跟市场有没有大的关系?比如这个地方是一块比较肥沃的土壤,那应该有高产的销售额出来。如果这个地方相对来讲市场潜力比较弱,再努力它的产出也是有限的,比如一线城市和房价和三线城市差别就会很大。所以这在种情况下两个不同的市场环境对结果会影响很大,所以在好多企业里面做排名的时候往往分析不出来这个市场做的好到底是因为市场的原因还是网点管理人员的努力程度,今天这个案例就解决了这个问题。
我们通常来评价一个网点销售/盈利等等这是经常的,最主要是怎么样用空间的角度分析市场的千里来进行一个横向的比较,举个例子,比如加油站的分析,如图这是北京市的辐射,比如看人口它在各个地方的分布情况,逻辑上讲,一个加油站的好坏跟人口是相关的,如果住宅区比较多比较密集、开车的人多可能加油的人多,这也是一种因素,我们来探索人口和市场间的关系是怎么样的。
如图这是经济情况,像北京因为它的经济状况差异比较大,大家在二环以内越红色代表整个经济的发达度,这里面可以有一些指标不管GDP还是人均可支配收入等等,这是属于经济的。
下图叫做POI点看它的商业发展程度,也是一种分布。包括车流量,我们做探索式分析的时候,现在还都是相对选某一时间段的数据分析,所以看的不是动态的,是相对在一段时间里面交通流量的情况。还有汽车的保有量,在这个地区的汽车分布的情况,这个数据是真实的,可以从颜色上看,中间的红色代表的整个车的保有量比较大,这其实是车的情况。
把这些因素进行加权分析就会给出来我们认为市场潜力的排名,上面的排名客户给它的是结果的数据,上面实实在在的这些加油站在我们客户眼里哪个加油站的业绩是好的?在北京客户排名最好的是月坛加油站,在它的整个业绩里比较好。大家首先想到靠近金融街、又靠近机关等等一系列的原因。但是你会发现从整个趋势上看这个数据还是有一定的规律性的,比如它的市场潜力和整个绩效排名正相关还是比较明确的,也会有一些异常值,比如红柱子代表潜力高、绩效比较差,这里找原因说到底是因为模型错了还是有什么样的原因?我们当时在做差异性的比较,我们找出来用模型算出来的和实际运营之间的差异,这里面比如华威,国贸下的一个加油站,那个也很奇怪,从市场看整个市场潜力比较大,但是得分比较少,这个怎么样看它的差异?
我们把这种加油站找出来进行排查,我从95年开始做数据、做市场分析和统计,做了20多年,过去叫小数据只不过现在喜欢叫做大数据,不管是小数据还是大数据,这两个都是要解决商业问题的,好多情况下大数据是什么、为什么的情况下让那些小数据补充,这个也是一个方式。我们首先看是不是我们的模型有问题?比如大家看到的华威路在北京的东三环,首先从人口情况它的排名在整个商圈里的排名算好的,整个东南部人口还是可以的,经济不用说的,这边靠国贸,东三环一块是不错的,包括汽车整个北京市流量排在第七,还有交通的情况、商业的环境。国贸、华威、双井一带也不错,这个问题就来了。逻辑上讲市场是不错的,问题在哪里?包括用夜灯光的数据看晚上出行的活跃度,这些证明都没有问题,那问题在哪里?我们人员现场摸底发现,这个加油站是比较靠近三环主路,但是一个最大的问题在于门前靠近一个居民区,而且那个地方三环过去并不方便,这里给出了一些原因,这种不能直接刷卡、行动不便、关键问题是被建筑物给挡住了,这相当于是用小数据的方式找位置。
根据这样的原则我们进行排查来修正这样的结果,通过修正结果的目的发现,用市场潜力的模型跟真正的客户绩效对比这个数据是有价值的,像刚才永洪的案例一样,如果这样的模型是建立的,比如在北京地区我们的客户会找人排查,它在全国那么多城市几万家加油站怎么样评估?这个模型如果可行,整个大数据价值就大。就像回答刚才的话,老板会找市场人员直接到CIO直接就解决了大家的问题。
今天只是跟大家分享了一个小小的案例,这个案例我想证明什么问题呢?就是在于当我们数据足够多,而且我们有足够多的技术去分析它的时候,我们会比过去更高效、而且及时,甚至全国范围里面掌握我们的数据,这就是我今天想分享的案例。
这个时代确实是一个共享的时代,这里想介绍一下华通人,华通人一直做国家统计数据,把统计数据做深化开发,目前运行者国家统计局国家数据的对外开放,今天讲的是商业BI,其实对政府来讲这个BI更重要,因为领导更愿意看脸,领导更愿意看数据,昨天从西南过来遇到一个省统计局市管中心的主任他告诉我上个月我们省统计局局长被拿下了,为什么被拿下?5月份总书记去那个地方考察的时候那个地方的投资经济出问题了,但是这个信息没有被省政府的直接领导掌握,发现统计部门没有提前把这个趋势掌握到。大家想想看,如果用了今天任何一家公司的系统,早一点领导去之前把那个地方的信息摸到,至少领导去的时候知道问题在哪里,这个问题就好解决了。这件事情是我现在做了20多年的统计,过去叫统计数据,现在叫做统计大数据,我认为这个大数据在哪里?第一个在于我们现在有了更多的存储技术、数据的加工技术、可视化技术,使得我们可以把过去孤立的数据整合起来,变的更高效。另外我们引入更多补充社会的数据,来非常我们传统的统计,这是一个很好的机会。
最近我走访了好多地方政府发现我们现在讲折算数据开放,政府讲政务云,其实很重要的问题政府现在也在改变,过去大家觉得花钱是买硬件、买软件、上系统,但是现在其实想的更多的是怎么样通过系统,现在都要买云了,其实更经济,强调更多的是的应用、数据的分析和价值,这就是我们大家越来越多的价值,怎么样把过去更精派的数据,尤其报表化的数据,怎么样更高效、快速、全面的整合。一个最典型的应用场景,刚才讲的是加多宝的老板,每个省长、市长、区长都是同样的问题,这个月业绩下降了,哪个行业哪个区域、哪家企业有问题了?市场问题、经营问题、财务金融问题?如果我们把这些数据用一张表、可视化的放到领导的决策上,领导很容易发现问题,大领导批评他的时候他就有底了,这就是可视化的技术。
第二个想跟大家分享一件事,这是一个分享的时代,今天上午主会场最后一位演讲的嘉宾谭总是我的同学也是好朋友,他讲的很高兴,讲大数据是个分享的时代,讲完以后发现他的手机和钱包被人分享走了,到现在为止刚给他发微信还没有找着,但是通过主办方的录屏可以看到一张脸,我在想大数据的技术包括市场上的人脸识别技术,如果进来的人,我们的信息跟人脸特征很容易关联起来的话,我想这个钱包也好、手机也好,不管是有意的还是无意的很容易找到。今天大家坐在主会场前排的尤其12点之前看到这个信息的也可以联系一下,因为谭总晚上要坐火车走,到现在手机钱包都没有了。谢谢大家!
主持人:下面有请特ThoughtWorks的资深咨询师汪志成带来“利用前端框架简化D3编程”
汪志成:前面讲的让我大开眼界,感觉现在有这么多成熟的产品了,但是作为一个程序员,我脑子里跳过的第一句话也是唯一一句话就是996,就是我们看到有这么多的成熟的产品,这么多的应用、这么多的可以做的事情,那么回头老总听完这个演讲回去就会找程序员说“你帮我实现这个”我这次的演讲主要是面向程序员和架构师的。时间比较紧,我原来的PPT有40多页,不过我会尽量快的给大家讲一下。
D3这是一个开源框架,前面有一个演讲嘉宾也讲过它,它的全称是data drivne documents就是数据驱动的文档简称为D3,D3在常规认识中一般把它认为一个图表库可以用来制作很多精美复杂的图表,会被当作highcharts的竞争品,时间在我看来D3并不是简单的图表库正如它名字暗示的一样叫做数据驱动的文档,数据驱动的稳当实际上它所做的活跟很多前端框架是重合的,也就是说我们在内存中维护一个模型,把它同步到界面视图上去,这跟很多前端框架做的是一样的。以前听说有一个基于D3做过一个功能的前端框架,只不过我没有见过。
D3的优点首先是一个良好的抽象,它的抽象层涉及到了数据可视化的方方面面,比如标尺的处理,它有一个很自由的定制方式,因为它在设计上符合SOC的原则,导致它有很大的自由度可以制订,可以D3可以用很多种方法写,但是也是本课的重点。接下来还有一个非常完善的生态系统,几乎是无所不通,它有非常丰富的文档搜集还有非常活跃社区,它的文档很多基本上翻译成中文了,所以可见它的社区的力量还是挺大的。
它的缺点是什么呢?一个是入门难度比较高,因为它需要有数据可视化的支持、SVG方面的支持、数据驱动方面的思维模型、相对其他技能来说还不够主流,比如说跟其他前端技能比,因为数据可视化还是一小部分。
另外生态系统良莠不齐,第三方比较多,库非常杂,质量参差不齐筛选成本也比较高,这些第三方库真正定制它的话很难定制,不阅读完工作逻辑基本上无法定制它。这是它的生态系统方面。
我们可以换一个角度看一下D3,比如我们看这张图它包含了哪几方面的内容?首先它是有两个数据序列,蓝色和橙色,它要体现的是数据序列的对比,接着可能存在数据更新,比如明年是2015-2014年的。这里面自己带的布局样式和动画,有的可能没有动画,但是这也是它可能出现的东西。它除了现在这个样子之外有多少种变体呢,最简单的变体是变一个颜色,可以横过来变条形图还有可能直接变成折线图,事实上他们体现的数据、体现的数据序列对比的业务含义包括数据的更新其实都没有任何变化的,也就是说它的这些变体并没有影响到它的本质,或者说底下这一个更直白点说布局、样式和动画并没有影响到这个图的本质。
D3它的架构是这样的,首先它有一个core这是它的核心,它进行了数据结构的抽象,比如算法的定义就是数据结构的抽象,可以把任何数据变成一个比例,包括时间、数字、颜色、分立的值都可以影射到一个数据位置去。还有一系列的算法比如力学算法。
接下来是driver就是所谓的驱动,它的用途是什么呢?用数据驱动文档,就是体现D3名称所表示的东西。然后动画之类的也放在这里,其实它把动画放在这里面是有点麻烦的。
UI层外观展现有两种,一种是SVG,一种是canvas,是4.0+的,在超大性能上相对于SVG有优势,CSS是对SVG进行定制。
它的界面只是表象而数据才是它的核心,也就是说我们看到core的数据结构、算法才是核心。它有个分层结构,core层是D3的灵魂,driver是估价,UI层是血肉,也就是说用来让它更好看一点的。这个设计是符合它的SOC原则就是关注点分离原则,关注点分离原则在整个软件开发中是非常重要的核心原则。core关注的是概念和算法,driver关注同步,UI层关注外观表现,而我们事实上在D3中最有价值的是概念抽象和算法,而driver功能与主流前端框架的职责高度重合,UI层易变,D34.0版本引入了canvas渲染的W方式。还有一个原因是实际业务中定制UI需求是非常强劲的,我们可能有很多成熟的或者相对成熟的可视化产品,但是这些产品仍然很可能会不满足你的业务需求,特别是一些对外的、对消费者或者领导的那些,它的定制需求会很强。
所以我们实际上可以把D3看成是两个库,既然它是两个库就有一个问题,我们能不能只用它当中的一个比如半个D3?答案肯定是肯定的,不我然不会站在这里。
我们其实可以用D3core谢谢算法结构,这些与SVG、CSS、canvas无关,极其纯粹,干干净净。我们把模型建好之后把它给前端程序员让他直接用前端框架把这些数据展现出来,而不借助第三个driver,它的优点是人力资源丰富,另一个是技术成熟,还有一个有利于合作分工。
这样的话分工方式就会被改造成这种方式,建模工作是设计一个数据模型写算法这个不需要了解任何前端知识,前端工作是拿多模型之后把它从UI那儿拿到基本的设计稿,把它的SVG拿出来,把映射上、动画设计上跟SVG绑定在一起,建立同步关系并且设立相应的设件,这是新的分工方式。
首先选前端框架,这个用的是Angular,因为是Angular的框架,对其他的框架不太熟,当然也可以用其他的框架实现,这里主要讲的是思想。框架唯一的要求是模型与视图同步就可以了。然后学习一下SVG和CSS,这是对前端程序员说的,SVG相当于图形领域的HTML,SVG原来的样式包括动画都已经入了CSS标准了,而且这种投资是不会浪费的,这些知识普通的web开发中有用,在市场上找到熟悉SVG的前端并不难,但是要找到熟悉SVG的数据分析的程序员就不太容易了,这些都是标准,谁也不用担心突然消失,它是一个非常值得做投资。
接下来很重要的一点是调整团队结构,根据康威定律,软件架构和组织方式是会相互影响的,因为UI用设计软件制作一个SVG格式的图表两者是同步的,数据建模人员可以设计D3core的模型,这两个完成之后前端程序员就把数据模型绑定在SVG上,绑定完之后前端程序员和UI合作调整样式、设计动画,整个就完成了。接下来我们看一些更具体的。
比如这个图,这个需要多少行代码呢?一个能显示进度文字,指针随着进度变化、左下角是0%,右下角是100%,不是整个圆的。指针在移动的时候会有个缓动动画。这个不用除了D3core之后的任何第三方库,我们看需要多少行代码?首先UX会给我们制作这样一个图,这对UX来说不是什么难事,SVG代码是这样的,前面省略号是画表盘的地方,Class是指针,具体实现的时候要通过CSS把旋转中心设置一下,画出指针来,这就是UX给我们所有的东西,它可以设计更复杂的。
同时数据建模人员会设计一个D3core的模型,在前面的图表中其实我们只有一项数据,也就是说百分比、进度或者占用率,体现在业务行业是CPU占用率,然后我们还要设计一个算法把百分比折算成转动的角度,已知0%是-135度,100%是135度,求X%对应的角度是多少,这个D3的scale函数已经给出了答案,定义率是0-100把差值函数拿到应用到X上就会得到X对应的角度到底是多少。
我们看一下前面程序员做的活,在UI给的代码上只改两个指向的点,双方括号是Angular绑定的,值会同步变化,值一变它跟着变,一个用来表示转动的角度,一个是显示30的数字。这就是前面程序员所做的活。
接下来我们给它加个动画,非常简单了,在指针上加CSS飞阁的设定2秒就是简单的缓动动画了,整个所有表盘所需要的工作量就是这么多,这个表盘实现这个功能最大的工作量还是在UI那儿。它用的设计工具写一个就行了。
接着还有更多例子,比如折线图,折线图很容易看清楚,这个line在point中迭代,还可以把颜色绑定上去这样就出现了一个奇葩的折线图。如图这是一个模板前面程序员写的。后面的组件就是如图这些,这里有个工具函数是用来把点的数字变成线的数字,所有的代码就在这儿。
另外一个例子是柱状图,跟刚才的逻辑也是一样的,只是样式不一样而已,它的代码更简单了,因为前面模板上只需要三个函数的数据。
还有一个迁徙图,中国地图上的迁徙图,代码上也很简单,在它的展现上首先前面把地图的轮廓画出来,中心的圆表示省会,把这些画出来之后在底下画线,把路由的数据从哪儿到哪儿的数据画出来就可以了,即使不是程序员应该也很容易能看懂。
这些是可复用的基础设施,画迁徙图可以这些,画相关跟地图有关的都可以用,跟具体的业务没有任何关系。
看完之后有点动心想这么些?,首先还有一些待解决的问题,D3的部分特性,比如坐标轴的绘制依赖于UI层,现有资源可能需要迁移才能用,写新的动能要考虑这种方式实现,还有一点要注意,超大数据量下会形成数据瓶颈,我试过一万个以上的SVG结点在手机上,PC上一般也没事。这个也可以有一些代码处理,没有那么多的数据或者考虑用D3原生API做这个事。
另一方面未必真的需要这种方式,刚才这种方式它解决的主要的痛点是定制化,就是说你把它的模型抽象出来,把界面表现自由化之后,它的定制化就会非常容易,因为你想怎么样做都可以,比如说把指针变成一个老式的指针都是可以的。另一方面是现有资源融合,如果以前有了D3的高手就没有必要迁移了,然后组织架构无法支持也就不用动了,至少前面的程序员有UX。
如图这些是学习资源,本次演讲相关代码有二维码,D3core文档区有中文资源,SVG和CSS的支持也可以看,Angular也有中英文官网。
主持人:谢谢汪先生带来的技术上的分析,下面最后一位嘉宾将为我们带来一些与我们生活息息相关的分享,因为我们现在这个城市高度城市化,数据可视化不仅能为企业提供一些决策,也能为城市治理、城市管理提供一些决策,下面有请北京中润普达信息有限公司CIO韩辉辉先生带来“城市综合治理可视大数据智能决策平台”
韩辉辉:大家下午好,今天因为是最后一场演讲,所以大家听了一天关于人工智能、大数据、可视化、AI、BI等等相关的方案、理念的东西,今天时间比较紧张了,我用比较通俗的语言给大家简单论述一下,大家也不用做过多的思考,来减少大家思考的压力。
今天分享的主题是“城市综合治理大数据的智能决策平台”开始主题之前我用几句话的时间介绍一下中润普达公司,首先我们中润普达公司是个集团公司,北京中润普达是属于中润普达的,中润普达在全国都有自己的分公司,武汉、杭州、江苏都有,它的产品有大数据和人工智能,人工智能主要做自然语言,中润普达的大数据和其他公司不同的地方在哪儿?中润普达因为它的大数据是通过大数据+人工智能用综合的方式为企业提供一些平台。我们中润普达有自己的专利、我们创造了国内第一个基于认知指令的动态平台技术。
今天主要分享4点:
1、背景;2、核心的技术叫认知技术的动态平衡;3、项目的相关情况、产品的展示;4、案例介绍。
首先大家在日常生活中都有这样的感觉,我们的城市逐渐向智能化方向发展,第一点是由于大量的农村人员开始向城市迁移,据有关的报告统计,大概在未来10年内,有5亿人员迁往城市。第二大量农村人员向城市迁移的时候发现一个问题,城市的教育、资源、医疗等等各种资源匮乏的情况。第三点,现在传统的建设已经不能满足未来城市发展的需要了,我们中润普达认为未来城市化发展将逐渐步入一个智能化的时代。
如图这是大概的情况,人员拥挤、食品安全、环境污染都困扰着我们生活。中润普达在解决城市治理这一块有两大方案:一、大数据;二、认知技术。
大数据主要是采集各个政府相关的数据,城市治理相关的数据,认知技术是我们的技术核心,把数据采集之后进行分析、展示、决策给相关人员提供平台,让他们以后在城市规划、交通运输、工商管理提供决策性的支持。
二、为大家介绍一下我们公司独创的认知矩阵和动态平衡,我们认知都有一种思想,让计算机像人一样思考问题,我们在做大数据的时候不是把普通数据进行分析展示可视化,我们加上了一个认知技术,像自然语言这一块融合里面去了,这里包括几个方面:1、用全新的模式,在国内属于第一家提出这个故事的。2、它能读懂非结构化数据,图片、音乐、视频、各种文件。3、它理解自然语言,这个自然语言是我们有一个自然语言平台可以分析这些数据采集出来之后可以做自然语言分析、定位更加精准。然后它可以通过自动学习能够从数据里获取知识,通过深度学习自己修正自己的模型。
它的主要核心技术包含几点:1、理解;主要通过自然语言NLP处理,包括文本分析、对语义的理解;2、推理;推理主要是把各个文本分词、语义进行整合,整合之后进行推理、分析、归纳,能够把句子理解了之后才能进行决策。3、像深度学习一样,把这些句子、语义、分词都理解了之后可以学习训练自己的模型,以至于自己分析预测的时候更加准确。4、地区一个自然语言交流的平台,比如通过人机交互这样的方式来给大家提供服务,这一块像搜索。5、最后是大数据的展示、各种图表,这一块不做介绍了。
我们的认知平台+大数据做成一个方案是认知矩阵平衡加上保健数据、保险数据、零售数据、银行数据,我们认为未来肯定是认知矩阵的新时代。
如图是认知矩阵与城市治理结合之后能够方便城市里的相关部门做一些决策性的东西,比如跟道路整合,每天预知到未来几天哪个路段拥堵,跟注册部门整合,知道那个地区注册最多,提前进行安排。
在这里大家可能会问一个问题,很多公司都做大数据,我们也是做大数据,我们这个大数据的理念和其他公司做大数据的有什么区别?我在这里总结一下它的区别和联系,我认为我们基于认知矩阵动态平衡性的大数据的方式是基于现代大数据产生的,同时对现代大数据的方式做一些优化,它的相同点是可以和现代大数据的方式一样可以进行数据挖掘、数据分析、数据展示、数据预测等等,这是相同点。不同点我们结合自然语言,结合自然语言之后可以对各种场景进行分析,它的定位非常准确。第三个不同点是基于认知矩阵动态平衡方式对未来的发展方向,比如它和现在处理的模式一样是现在把数据拿过来之后用算法模型挖掘分析是按照计算机的思维处理的,我们是按人的思维处理的,首先分析的是两种处理模式。
通过我们认知矩阵的模型可以做的分析,可以分析人群画像、行为和使用空间等等模式分析出来。如图这些是分析的模型,比如可以分析人流指标、生活圈指标、居住情况进行标签分类,底下是市民的情况,人口属性、行为、位置、身份等等。
如图这些是根据我们的模型做的一个公众参与的,它基于原来大数据基础之上对于各种论坛、新闻、微信、数据对接采集,采集之后再进行分析。
举个例子我们可以通过这种方式,一个公交车或者坐地铁的时候都有一个刷卡记录,这个刷卡记录是记录你每天从哪儿上班、去哪儿,把全市所有人员的这些东西都记录下来之后统计分析之后得出一个结果可以提前预测,提前预测这条道路地铁可能会拥堵,这时候提前进行分流由交管部门进行支持,这是一个模型。
当然模型挺多的,我们会基于不同的场景产生不同的模型。如图这儿是IC卡记录查找里面不同的人群能够分出来是学生、乞丐、上班族这种分类。
下面我是做的一个具体的项目情况,这个项目是武汉的项目,主要是包括三个方面:1、基于中文语义的计算引擎。2、数据源注入;3、展示的可视化。
数据流程属于是输入数据源,之后有一个模型,通过模型做分析,比如对动态归纳、算法模型构建、智能化分析、情感分析、智能识别、智能计算引擎都可以通过注入数据进行分析,分析之后分类展示,第三是展示情况。第四展示出来通过可视化的手段展示给相关部门,相关部门看到这些数据之后就知道下一步如何进行决策了。
平台的架构,这个架构基本上和大数据的架构差不多,包含一些数据的采集、场景、数据的呈现、全线程控制、数据共享。这个不重点讲了。
数据源注入主要是注入几块数据,政务、工商、招商、城管这几个方面的数据,注入方式多种多样的,采集、图片等等各种模式注入,数据的归集是将大数据整合在一起分离,城市是多个部门数据整合之后进行综合分析,这就是数据归集把所有的数据整合在一起。如图这是一个简单的总结,通过这个平台我们能做什么,能够把现在的情况展示出来,根据各个部门采集出来的数据做一个综合分析,把这些分析展示出来做未来的预测。
下面分享一下我们做的相关案例,因为我们的认知矩阵动态模型是一个计算平台,计算平台+各行各业的数据就形成了各行各业的解决方案,刚才给大家介绍的是以前做过其中一个解决方案,这儿是一个解决方案,可以做负面清单的分析,城市舆情这一块政府行业非常关注舆情,这时候可以动作舆情分析,先采集大量的数据进行分析,自动预警,让舆情发生之前告诉相关部门。
政务云的工作,比如重点产业结构发展分析、多地12315维权、企业关系图谱、市场上主群类型分析等等。
下面是工商消费维权的案例,主要是做决策的,也就是说事前在政府和群众端展示情况,政府和群众得到之后可以进行一些操作,像前几年上海有一次踩踏事件如果有这样一个平台可以提前预知到哪儿有展销会可能导致什么情况,这时候城管提前疏通就不会有这样的情况了,我们就可以很好的把它解决掉了。
今天我跟大家分享的就这么多。谢谢大家!
扫码加好友,拉您进群



收藏
