全部版块 我的主页
论坛 经济学人 二区 学术资源/课程/会议/讲座
2067 2
2017-08-11

2017年中国数据分析师行业峰会:

大数据与交通旅游_分会场(八)


大数据与交通旅游

时间:2017年7月29日 下午

地点:北京·中国大饭店


   陈清凝:尊敬的各位来宾,女士们先生们大家下午好!这里是CDAS2017第4届中国数据分析师行业峰会—大数据与交通旅游分论坛的现场,我是主持人陈清凝。非常高兴能够主持“跨界互联,数聚未来”CDAS2017中国数据分析师行业峰会。首先,我也谨代表大会主办方对大家的到来表示最热烈的欢迎以及最诚挚的感谢。


TI5X{`1V{1$GV)2WLR@{O.png


   现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。现在大数据成为各个企业的资产,基于大数据的商业宾隔夜将造就千亿级的市场。今天下午我们将围绕大数据与交通旅游这个板块跟大家进行分享。首先让我们有请IBM大数据分析算法研发高级经理杨继辉先生上台演讲。


   杨继辉:首先感谢主持人的介绍和CDAS论坛给我们这样一个机会让我跟大家一起分享。我叫杨继辉,在IBM这边负责大数据分析算法研发,我们的团队主体做算法研发的有100多人,我们做的是通用算法,可以在各个行业充分的使用,交通只是其中一个行业。今天下午利用这个机会分享一下我们最近这段时间和IBM的合作伙伴在国内某个城市里做的基于交通相关多源大数据融合,解决整个城市拥堵、道路规划方面的挑战我们做的结果,分享一下我们的经验,也有教训,希望大家能够有所收获。


   说一下背景,我们为什么要做这样一件事情。图上的场景大家很熟悉,国内的一线城市、二线城市基本上都是这个套路,人口会持续的涌入,城市也会越来越大,路修的越来越多,但是感觉有时候人越多,路修的越多,结果是路变的更堵,有些是没规律的堵,甚至是无序的。在座的各位今天从你们住的地方到这儿,大概多长时间?一个小时、一个半小时、两个小时可能都有,我从家里过来,我从家里到公司是一个半小时,从家里到这儿是50分钟,我早上来的时候我看百度提示的是30分钟能到,实际上用了50分钟。


   与交通相关的事情非常多,平常的出行背后参与的主体非常多,像最重要的交通管理部门中的交通规划、交通管理、交通参与主体,比如说汽车、公交、轨道,以及所有的参与个体。在这样一个庞大的系统里面,想要把它做的很顺畅,或者说想要在中间挖掘出交通运行的规律,以及问题,以及解决这些问题的方法或者先分析出来这些问题的根源在哪儿,目前来看是一个非常大的挑战。因为随着大数据的来源越来越多,现在看来数据有时候不是问题了,而基于这个数据怎么做分析,分析出来的结论是否真的能够提供一些 深刻的洞察,并且基于这些结论可以采取措施的东西呢?反而更有挑战。所以我们才和合作伙伴有这样一个机会针对国内某个大城市得到了非常多源的数据,做了一个工程。


   第一,多源数据融合思路


   交通相关的数据来源非常多,我们如何把这些多源数据结合起来,做大数据分析,数据来源的融合非常重要,没有多源数据,机遇单源数据也可以做,多源的数据会让整个形势,或者全局的势头更清晰,这个挑战非常大。


   这个项目里我们可以得到数据是因为我们跟合作伙伴以及在这个城市里一些得天独厚的条件,跟我们合作的部门是一个交通规划部门。基于政府的优势,或者说市政府的规划,把交通相关的归口数据由交通规划部门统一汇总。至少可以访问所有交通相关的数据,梳理之后分为四类。


   一是交通的运营数据。比如说最常见的卡口数据,也就是路上经常看到的摄像头拍的数据,这些数据会做后续的处理,做成结构化数据。RFID数据,在这个城市关键的路口或者是特定的地点,所有的车辆经过那儿都会有一个信号,在当初设计的时候是为了安防的需求,城市安全管理的需求,但是它对于我们做交通管理有很大的帮助。车联网数据,比如说百度、高德,还有基于政府机构的车辆网络信息。轨道交通、GPS、手机信令等方方面面的信息都作为交通参与的主体的基础数据,都会对做交通分析有很大的帮助。


   二是交通设施数据。这些是静态的数据,这些数据也随着时间的推移在变化,只是这些变化不是实时的。比如说轨道、公交、道路的会合、分岔等等,这些信息对交通是非常有用的信息。


   三是交通规划数据。大家天天吐槽为什么路越修越多,反写越来越堵呢?有时候第一言看到问题都会说,规划怎么这样子呢?事实上很根源的问题在于规划上,但是规划部门的苦水也很多。关于规划,包括道路的规划用途、地块儿的规划用途对交通的影响非常大,如果说我们能够提前拿到这些信息,帮他们做一些分析,甚至拿以前的历史规划,以及历史的交通状态做一些分析,能够从中捉到现状好的地方、不好的地方,对将来的规划会有很大的帮助。


   四是交通地理数据。


   我们拿到了这么多交通的多源数据以后,做的大数据分析项目最典型的流程是先要做数据的清洗和梳理,要对数据进行融合,融合之后再基于我们想解决的某个问题对整理过的数据进行建模、分析、验证、规划、部署。


   拿到数据以后第一个需要关注的就是数据质量,虽然我们拿到了很多数据,现在我们拿到到的是出租车的GPS和车联网的数据。大家觉得有了GPS什么事儿都解决了,实际上并不是这样,GPS数据在一些常见的情况下会很好,但是其中会出现很多异常的数据,比如说碰到隧道、轨道、地铁等等,基本上就没法得到实时的数据。这是第一个基本量的问题。第二个是覆盖范围,RFID路网分布间隙大,这是覆盖范围的问题。第三个是缺失值,各数据都有不同程度的缺失值。


   数据的融合最基本的事情是什么?拿到了这么多复杂的数据,是不是拿到以后就开始做,还是需要做前期的预处理?我们的思路是,要在做交通分析的话,首先要对交通的基本特征做梳理,这个梳理是做数据融合的第一步。数据有一些问题,我们如何拿多源的数据进行互相验证?比如说GPS有缺失值,我们能不能补充它。GPS数据不全,RFID是否可以做补充?第二个是统一数据,我们在做数据分析预测的时候基本的策略是要把多源的数据融合起来做一张大表,这张大表如何能既有运营的数据,又有平常意义的主数据。也就是说交通参与的主体如何能够识别?从整体来讲,交通流量里面的信息我们出河能够把它汇总出来?我们要做好统一数据的融合。这个基础上,我们会对所有交通路段里面的交通参与主体,现在分析的主体是机动车辆(不包括摩托车),在这个路段里的刻划指标。最基本的是平均速度,要把这个事情刻划的更全面,会设计出更多的指标,比如说在这个路段里面的平均行驶时间,我们会把一个长路段基于物理的特征划分成小路段,这个路段里分析哪个小的单元里的各个特征,平均速度、平均行驶时间、拥堵的长度,拥堵长度随着时间的推移是动态的,也许是3分钟、5分钟。以及拥堵点的起始位置,因为拥堵总有拥堵源。在行驶的过程中,低速占比时间是多少,这个道理上一开始进入这个路段的时候很好,但是走一段时间就堵了,堵过了这个时间又不堵塞乐观,更多的时候是针对长路段是这样,短路段有可能进去就是堵,出来的时候还是堵。基于统一的融合数据之外做了处理之后,就可以开始下一步的分析和建模。


5R0D0}_JO5FCGN4D7[1~K@0.png


   第二,如何做模型以及设计系统。


   为什么要做这样一个系统呢?我们在做任何大数据分析项目的时候,都有几个核心的问题,为什么这么做,到底要做什么,要怎么做?这个项目中主要是为了交通规划,以及交通管理部门在整个城市交通管理中他们需要去关注的一些事件或者说特殊的需求。


   建立这样一个平台,并不是为了当前需要什么就要做这几个事情,满足需要就够了。为什么我们要做一个平台,构建这样一个系统,满足现在的需求?我们考虑的是不单单满足现在的需求,而是要考虑到交通规划、交通管理这两个大的范畴,如何解决将来相似的问题。构建这样一个系统可以帮助我们在三个层面上看这个事情。作为这个部门归拢了这么多的数据,光看一看这些数据,探索一下,不是这个部门需要的,也不是政府部门归拢这些数据的目的,而是要分析数据背后的原因,为整个城市的政府管理,包括规划、交管、交通出行指导方面做统一的长远的规划,所以首先要做数据研究。之后要在研究的基础上发现这些数据里面的洞察信息,包括规划方面的信息,规划是一个最大的痛点,第二方面就是交管。有了这些信息可以为全方位的深入分析做基础。最后可以为辅助决策做支撑,将来的规划如何避免之前发生的问题,如何在交通管理中为大家设计更好的信号灯等等。


   做什么呢?这块儿将来可做的事情非常多,眼前是基于几方面的内容做深入的探讨和分析。


   1.路段指标的形成。


   我们天天在拥堵中经过,也觉得习惯了,反正那个地方就是堵,我们瞄一眼就能看,比如说在高速公路的入口,发现三条道突然变成两条道,可能每天就在那儿堵。开一个星期、半个月心里就非常清楚一天在这儿要堵多长时间。这些拥堵事件如何去识别它?刚才举的例子是很浮浅的例子,如何让它自动的在城市范围内做这个事情,就不是特别直观了。


   2.拥堵事件的自动识别


   3.常发拥堵识别


   4.拥堵模式分析


   5.拥堵的预测报警


   架构不花时间讲了,就是对基础的硬件环境,以及大数据平台,加上我们做的通用模型、业务模型,最后上层是针对某些特定的应用做深入的分析和展示。


   第三,工程实践结果分享


   我们会在通用模型中选择适当永远我们做的,IBM会根据时间序列和空间分析的算法,在这个基础上结合业务模型做,我们会做一些初步验证之后,再用批量的大数据做,最后再做部署。


   我们会针对这些算法模型做迭代式的开发,不是把所有的事情同时做,这种迭代会是非常频繁的,也许半个月,一个月就会针对原有的数据分析出来结果,之后会根据更多的数据来源做迭代式、渐进式的改进。


   成果分享:一是关于拥堵趋势的分析和拥堵模式的分析。这块儿主要是做历史规律的挖掘,提供拥堵趋势或者规律的全局视图,给交管部门或者是交通规划部门。二是短时预测和异常监测。短时预测是根据现在的状况和历史的状况做30分钟之内的道路车速的预测,基于这个会做异常的监测,是说平常这个地方不堵,突然变的很堵,我们可以很及时的挖掘出来,背后有短时预测的技术才能做异常的监测。三是长时预测。对交管来说有警力分配的机制,会提前半个月或者一个星期做交警的警力分配,我们会做十天之内拥堵程度的分析和预测。


   拥堵趋势变化:目前我们会把前六个月的数据拿出来,对整个城市道路交通的每个路段做拥堵情况变化趋势分析。这个路段在六个月之内车速变化的趋势分析,可以看到在六个月里面图上这个路段是恶化最因为的路段,背后一定有原因。比如说这块儿修路,或者这块儿经常出现频繁的交通事故,把这些信息关联起来就可以找到背后的原因。


   我们会做拥堵趋势的总体情况分析,会把道路交通分类,在各个类别里面分析。通过BI的工具可以做到,但是为什么要做更高端的分析呢?我们要通过聚类的办法找出来变好和变坏的程度在哪儿,区别在哪儿,规划不能覆盖所有,只能找最迫切需要解决的问题。


   拥堵模式的分析会对交通规划有很大的帮助。我们基于六个月的数据做模式分析,会挖掘出来五种拥堵模式,找其中一个给大家主要讲一下。这种模式在每天里面只要出现拥堵就是持续时间非常长,并且非常稳定的拥堵状态,跟整体道路的变化趋势基本一致,也就是说不堵的时候就不堵,一直都不堵,只要堵就会堵非常长的时间。结合前面说到的交通规划数据,交通运营管理数据,就可以挖掘出来非常多的信息。目前我们在这方面有跟多现实的结论,这样的话对于交管和交规,在出月报、年报的时候就会有一些结论,对于将来做后期的规划都会有非常有价值的帮助。


   短时预测的方法是会对道路里面所有的路段,基于当前的时间点做推后30分钟的车速的平均预测。图上是某一个路段各种车速的情况,图上有4条线,最上面的那条线是基于历史情况分析;横线是拥堵的阈值,这个阈值不是固定的,会针对不同的路段有不同的标准,高速上我们认为20或者30就非常堵了,在很拥堵的小路里到10之下我们认为才是拥堵;蓝色的虚线是我们预测出来的,红色线是历史值。基于短时预测就有异常报警,异常报警的逻辑很简单,历史上认为这段时间不应该堵,现在非常堵,我们就要及时提出来,为什么不做实时的?因为有现实意义的需求,因为交警说如果有特殊的拥堵,不是拥堵了就马上去,因为有些拥堵十分、八分就过去了,有的时候是会堵很长时间,交警需要干涉的是现在已经开始拥堵了,并且趋势可能会堵的更多,所以就需要派警力干涉,但是不希望派的过程中拥堵消散了。满足条件了,我们才算作是拥堵。


   长时预测是基于每天的拥堵时间做的预测,类似于天气预报。天气预报说明天有雨,并不一定是明天一天都下雨,也许是明天下雨的一个概率,我们的预测基本上是基于拥堵时长,明天或者后天,十天之内每天拥堵时长的预测,我们也会针对最关心的时段做拥堵时长的概率分布。比如说这条路上明天会堵2个多小时,我们关注的早高峰、晚高峰、午高峰会拥堵多长时间,这样的话对交管做下个星期或者下两个星期的警力部署会有非常大的帮助。


   时间关系就讲到这里。谢谢大家!


   陈清凝:随着大城市病越来越多,需要大数据这样的手段去不断地发现城市交通运行的规律和潜在的问题,我们也可以做一些预测。相比传统的交通手段,大数据为我们提供了非常新的切入口,让我们去分析这个行业。接下来我们有请首发集团博宇通达科技智慧交通大数据中心技术总监曹正凤先生上台为我们演讲。


   曹正凤:尊敬的各位嘉宾,大家下午好!下面由我给大家做一个简单的分享。简单做一个自我介绍,我之前是做理论研究的,在高校做了15年的统计学教学,从2016年3月到首发集团,也就是北京博宇通达科技有限公司带领大数据团队做高速公路的大数据分析。我们想做的事儿是数据分析业内大家都向往的目标,就是具备计算机知识,再具备统计学知识,再加上业务领域的知识。这样的话我们就是数据分析领域的数据科学家,我正在朝这个目标努力。


   我们所在的公司首发集团是北京高速公路运营管理方,北京有15条高速公路,13条都归首发建、管、养,说白了,大家每天进出北京都得交高速通行费,这些都是首发集团的业务范围。我们这个团队做的事情是基于每天200万辆车进出京的情况,路上每一公里摄像头的数据进行分析,找出一些为企业管理、为公众出行做一些数据探索的事情。


   第一,大数据团队概况及建设方案


   业内大数据团队一般的模式,我们跟IBM公司的大数据团队没法比,但是业内大部分互联网公司的团队基本上是这个状态。


   我们团队的架构总前端是产品团队,产品团队做的事情是捕捉用户的需求,高速公路管理方有什么需求、市场有什么需求,由他来把需求提炼出来,交由平台团队、大数据团队,平台组要懂大数据技术这套知识。由平台团队到数据团队,数据团队也叫建模团队,建模团队做的事情是基于产品组提出的需求,基于现有的数据用我们的数理统计模型、数据挖掘模型、业务领域的模型把它基于数据构建出来,让它符合我们需要的某种业务需求。开发团队做的事情是把建模组做出来的模型用分布式的算法实现,包括前端BI展示。现在大数据业内做的最好的都是BI,大家都处在展示的阶段,大数据的业主方或者说甲方一般对细节不感兴趣,对底层的技术是怎么做的不感兴趣,只吸收看到一个很好看的界面,一个很好的大屏幕,所以现在业内BI做的特别好,也是我们开发团队要做的事情。QA团队是要做项目进展过程中的质量管理。


   我们部门有19人,大部分是研究生以上,包括数据挖掘工程师、大数据可视化工程师、需求分析师、工总统工程师、架构师、业务经理、QA管理人。


   第二,智慧交通大数据平台


   我们是首发的子公司,我们做的事情是为首发服务,管理方有什么需求,我们要帮他实现。他们委托我们做的第一件事情是要求我们基于首发现有的数据做一个整体方案,整体的思路是“1+N”战略,“1”是指智慧交通大数据平台,这个平台要把高速公路上各种各样的数据收集起来。数据是什么样的?形容一下,比如你开一辆车到高速公路收费站的卡口,开过来首先触发的是线圈,一触发知道有一辆车来了,在你的左前方有一个摄像头会抓取你的车牌号,线圈触发就会形成记录,加上抓取的车牌号,这就是一个信息源,车的前面会有拍照,会板全景拍下来,这是第三个感应器。第四个感应器是在上面有一个类似于录像机,会从你触发线圈到你离开的过程会录下来,四个感应器,数据就源源不断地进入到我们的系统里面,我们的平台就要处理这些数据,有结构化、非结构化、有视频、有图像。


   这些工作都是基于云平台,基于云平台虚拟化的数据,我们大数据平台部署在这个云平台的基础上,虚拟化的目的是我们进行业务运维的时候方便一点。大数据基础平台进行数据采集的事情,智慧交通大数据平台做的是结合过速公路领域的需求,做一些行业内的数据采集,数据清洗。再往上做具体的应用,要解决实际问题,比如说我们解决的第一个问题就是逃费稽查。首发集团每年会有几千万的逃费金额,有各种各样的人会想办法不交高速公路费。比如说广东2亿的逃费,武警恨不得都上高速把钱要回来。


   智慧交通大数据平台我们用的是Hadoop技术,我们把大数据从DOS时代升级为Windows时代,原因是后续的开发成本、运维成本会下降。


   一期建设做的事情是把智慧交通大数据平台搭建出来,并且开发出来。底层是Hadoop技术,就是现在比较流行的大数据技术。再进行综合稽查系统,再进行BI展示,这是做数据分析第一件事情,展示的特别漂亮,领导说你做二期吧。第三个是视频结构化。


   智慧交通大数据平台一开始的想法是团队在做这件事情的时候发现很麻烦,我要学习各种各样的知识,各种技术都得会。我们发现这些技术很麻烦,平台组的人掌握起来很轻松,但是到了建模组的人就很麻烦了,还得折腾dos的东西,所以我们想降低门槛,差不多有点儿统计学知识的人就可以进行交通大数据分析,再往下就是人人都可以做大数据分析,这是一个愿景。


   原因是大数据学习过程的门槛很高,比如说我们要学JAVA、sprak、mahout技术等等,学起来很麻烦。开发难度也比较高,我们在论坛给学员讲课的时候就用的是Hadoop2.0系列,这里进行求派值的实验,用的是Hadoop自己的那套技术,做的时候大家发现必须要歇一歇dos命令,这个过程很麻烦,开发难度很高。Hadoop的运维成本也比较高,要真正部署到我们集团去的话,我们集团必须要有对大数据特了解的人,后来集团认为这件事情咱们能不能省一省。我们想,还是开发一个平台,后续运维的时候只需要一个人就可以了,工作量会降低。


   基于学习难度高,开发难度高,运维成本高,我们做了智慧交通大数据平台。这个平台主要做的事情是要把数据进行全方位的汇集,这是最基本的。将来大家不是在首发做,可能在另外一个行业做大数据,也可以有这样的思维,肯定也要汇集数据,肯定不能再用传统的Oracle数据库,因为图片怎么存储都不或解决,所以用大数据平台这个问题相对好解决一点。我们开发了一个Windows的Hadoop,这个平台的特征是拖拽式,我把组件开发出来,比如说你要做一个数据表的描述性统计,要进行百分位数、平均值,各种统计图的计算,只要是拖拽式就可以实现。这样的话,使得建模组的同志相对来说比较轻松。拖拽式就可以实现某一个分析的事情。


   功能性可以进行自动的一键式部署,任务监控等等。安全性方面,如果大家为某个行业做大数据的话,安全也很重要,国内暂时没有很多的人提大数据安全的事情。我们说的大数据安全是技术层面,隐私保护是另外一件事情。我说的安全是数据泄露、黑客攻击的事情,要进行授权。

简单说,我们把使得大数据的开发运维成本降低,使得技术门槛降低,我们就做了这么一件事情。


   第三,智慧交通大数据应用


   一是综合稽查;二是BI展示,三是视频结构化。


   首先是综合稽查。每天都有人想办法不交高速公路通行费,我们可以通过采集监控数据,采集收费路网数据进行车牌比对、图像识别。在系统里要进行嫌疑车追逃规则的梳理,第一种规则分析某辆车在什么时间进的,什么时间出的,从哪儿到哪儿,什么时间。是不是在合理的时间,合适的空间上在高速公路上行走,如果是在一个不合适的时间,不合适的空间行走的话,他可能就有问题。一期我们使用的是车牌比对+特征比对。这个车如果没有车牌,就要看车上的挂饰。这是规则。



   规则做好以后就要放到大数据平台上,我们会进行异车倒卡的大数据处理流程。这个流程放到我们的平台软件上,一点运行就会把全路网的数据筛一遍找出我所要的嫌疑车辆。平台做的这件事情使得工作处理起来比较顺畅。异车倒卡是什么情况?看一下北京市路网,有收费站,有一辆车,这是2016年9月份的数据。这辆车从百泉庄进来,从京沈土桥收费站出去,同时跟他对相行驶的车,从土桥进,从百泉庄出,这两辆车是一个公司的,只有一个公司才会有这么明确的信息。你从这儿过来,我从哪儿过去,中间异车倒卡。在中间的时候他们俩把通行券进行了交换,改换以后从百泉庄向土桥的车拿着另外一辆车的通行券。这样的话就可以实现逃费。

应该交125+145,实际上就交了20+10,逃费240元。


   同车倒卡处理流程。同车是自己逃费,一个车有进的记录,没有出的记录,可能从最近的一个地方出了,他手里有一张通行券。


   综合稽查解决了业务系统的痛点,将来大家无论做什么样的行业,你要解决的是真正需要解决问题,否则的话会觉得你做的东西没有用处。2016年3月我进入首发以后,刚开始我提出了各种美好的愿景,各种各样的想法。我们进某一个行业要先考虑好你对这个行业是不是真的了解,某些会是一个很痛苦的过程。后来我提出了解决方案,我不预测常规性拥堵,因为这是都知道,我预测非常规性拥堵。


   我们正在做基于深度学习从图片上提取某个车辆的特征,比如说车辆的颜色、车辆的型号,这叫车辆多围特征提取。交通参数提取,因为在高速公路上还有一些交通参数感应器,这个感应器2公里一个,是雷达的形式,是扫断面,这个断面上有多少辆车,车的速度是多少,车的密度是多少,把这些交通参数提取出来,要通过视频提取。交通事件,比如说有没有倒车,有没有移洒,移洒的事情经常发生,追责要追前面车辆的责任,谁扔了这个东西。这个时候需要通过视频,视频要自动分析出来有移洒。之前是每天巡逻车在路上巡逻,有40多辆车,如果视频革命他这个地方有移洒,如果有提前预警的话就更好,那个车就在那儿待着,很快到达出事地点,很快把掉下来的东西移走,就不会有人撞了。所有的这些分析都是要给予业务应用,这一点我在反复提。


   基于大数据平台的实时BI展示,这是第三个应用。这是一个KPI指标,今年能不能完成任务,能不能把集团收费的情况完成的展示。


   按车型同级车流量,我们做的事情是按车型汇总交通流量,每天凌晨2点使用Sqoop组件抽取到Hadoop平台上,为什么是2点钟?一个是有延时,第二个也不会惊动业务系统。启动spark任务进行统计计算,并将结果写入到MySQL,按车型统计每小时的交通流量和收费数据,按车型统计每天交通流量。


   这是我跟大家分享的内容,有些是我们的业务内容。


   陈清凝:感谢曹总的分享,干货特别多,信息量非常大,让我们看到了交通行业在用大数据手段提高行业管理效率的实践,让我们感受到了城市交通在管理方面所进行的努力。接下来让我们有请上海得拓信息技术股份有限公司总裁助力梅彩先生上台。


   梅彩:大家下午好!


   我叫梅彩,来自上海德拓。我之前做软件19年,做过云计算、IT管理,做跟数据相关有10年,交通也做过一些。今天我演讲的题目是“大数据——提升交通管理水平、构建智慧交通系统。”


   德拓总部在上海,成立于2011年,现在有三大类产品,第一类是存储产品,我们在高带宽的视频行业,比如说在电视台的占有率非常高。第二类产品是做超融合,就是基础架构云、基础架构平台私有云。第三类是跟大数据相关的产品,我们有一个集成平台。目前我们的大数据产品到7月份刚刚发布了3.5版本,今年1月份是3.1,7月份发布了3.5版本,进度比较快。德拓成立以来销售收入每年翻番,今年二季度数据还没出来,一季度仍然是翻番的。成立以来,除了第一年以外,以后每年都是赢利的,我们的目标是成为上市公司。


   我们专注在跟数据相关的领域,我们提供的是融合解决方案。我们总部在上海,在南京、成都有研发机构,在上海也有研发中心,今年会在北京成立人工智能实验室,也会在西雅图成立数据安全实验室,全国其他地方有很多销售和服务机构。


   今天会议的主题跟数据相关,在座的大部分都是数据分析师,是这个领域的专家,我们讲一下跟数据相关的内容。德拓在交通领域做过交管,也就是交通管理局。我们也做过道路运输管理局,交警大家很熟悉,发车牌、发驾照都是交警管理的事情。运管是做出租车的管理,客车的管理,货车的管理,危险运输的管理,驾校的培训也是在运管。交委我们也做过一些项目,帮助交委提高管理水平。另外,我们做过大数据的孵化器。孵化器是什么意思?就是把交通行业的一些数据开放出来,开放给第三方开发者使用,第三方开发者可以是个人创业者,也可以是新成立的公司或者是其他公司,都可以,我们也做过类似的案例。


N7FE$E5]_TATWYJB5T7HB_W.png


   我们做的几个项目在整个交通领域,不管是交警还是交委反响都比较好。比如说贵阳交管的项目,克强总理亲自去看过,克强总理看完以后说“做的比较好,人在干,云在算。”陈刚书记补充说“天在看”,意思是说人干、云在算,另外还有摄像头监控交警的行为,交警有执法记录仪在记录一些东西。交警的手机都会有定位的位置,会记录执法的时候具体位置在什么地方,每天工作的时间,在哪些地方执法,行动轨迹是什么,这是指天在看。贵阳交管是数据铁笼项目,什么意思?贵阳的大数据项目做的很成功,全国的数据大数据博览会是在贵阳召开,在贵阳交管是第一批做的,做的最成功,所以才会受到这么大的重视。习总书记说“要把权力关在制度的笼子里。”用大数据的手段对交警的权力和行政执法进行很好的监督,以前是靠人管理,靠人监督,现在上了大数据系统以后把管理监督决策都变成了由数据来执行。我们看到了大数据很多高速公路逃费的问题,这里是大数据对权力的制约,提升了交警的管理水平。


   具体看一下该交警是怎么做的。交管的业务比较大,在公安体系里面是非常大的警种,有20几个业务系统,我们把20几个业务系统的数据融合到一起,采集汇集到大数据平台,里面有结构化的数据和非结构化的数据,把互联网的数据,比如说跟贵阳相关的微信、微博、论坛、报纸、媒体的数据采集上来进行分析。融合以后首先会给交警建一个个人的诚信档案,你可以理解为对交警360的画像。二是可以看到社会舆论对交警管理水平的评价。三是我们利用大数据来改进交警的业务,提升他的服务水平。四是会出一些分析模块,可以给领导用的模块。


来源:CDA数据分析师峰会:大数据与交通旅游-分会场

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-8-11 15:59:45


   简单看一下个人诚信档案。每一块儿诚信档案分成了四部分。第一部分是数据记录,数据记录是把交警所有执法的按照时间轴把工作活动内容按照时间轴显示出来,把执法的视频记录下来,把执法活动区域,活动路径记录下来。第二部分做风险预警,比如说有纪律风险、执行风险、预警的风险、违纪的风险等等,会分为几个风险对交警进行提示,同时交警的工作手机会直接把这些任务推送到手机端上,他可以看得到。第三部分是对他进行诚信评价,比如说舆情对某个交警是不是有投诉,是不是有违规的罚款,包括个人的工作时间。因为交警加班的话不能领加班工资,加班以后贵阳采取了比较好的方法,你加班了我给你计上加班的时间,将来可以用加班的时间换休假。你加了40个小时的班,就可以请一天的假去休假了。第四部分是效益分析,交警执法区域的反馈,工作辛苦程度等等会进行绩效的考核。这是对交警全方位的画像,这样对交警管理的比较严。以前没有大数据的时候,交警本来有执法记录仪,很多时候交警没有用,没有用摄像机摄下来处理违法现场的记录,经常会产生纠纷。融合了大数据以后,有了硬性规定,必须要上传执法记录,这样对交警也是一个要求,这样的话他们都能够用执法记录仪对自己进行维权,防止有些车主情绪化,被冤枉。


   我们构建了多维度新业务模型,用汇聚以后的大数据改进以前的业务。比如说查酒驾,把酒驾系统跟管理流程结合起来。如果三天之内没有上传,有些业务三天之内没有处理就会上报到领导那里,如果领导在一两天之内没有处理,马上就会上报二级领导,会逐层上报,就会有工作上的改进。图上列了很多种容易发生职权风险的地方,把每个容易发生风险的地方标注出来以后跟相关的业务考核关联起来,跟交警的业务人员关联起来,后端跟每个应用系统关联起来,再把数据拿出来进行分析,所以是一个融合的业务分析模式,不只是可以对交警的权力进行监督和管理,同时还可以更好的开展业务,防范风险。


   用了大数据以后,把出租车的信息融合汇聚可以看到一块区域,利用大数据优化这块区域的交通,比如说这是贵阳区的交通,是一个县域。这块儿区域是比较容易拥堵的区域,就会针对拥堵区域内车辆的总数进行监控,一旦车辆的总数超过一定数值的时候,就会采取优化的措施。比如说限制二环外放射性的线路采取快出慢进的策略,会在环线以内采取单向通行的措施,这样可以缓解交通。他们用了这种方式以后,在二环以外建2.5环公路,或者建别的路的时候,用这种方式在这块区域该没有发生过比较大的拥堵,交通的情况跟以前差不多。可以用大数据进行优化交通的组织。

  

   可以用大数据用来打击黑车。滴滴出来以后,黑车少了一些,但是黑车还是存在。怎么打击黑车?交警有视频卡口,可以识别车牌号,会分析,如果一有辆车每天在某一个路口经常出现,这个车可能就会是一辆怀疑车,如果他在某一个路口经常出现,同时经过的路口数比较多,也就是说在多个路口被摄像头检测到,同时重复的天数比较多,这样的情况多半就是黑车。然后对它进行分类,把出租车排除,再排除私家车,剩下的就是重点嫌疑车辆,再用人工筛查的方式找出黑车。交警每天都有罚单,快速处理数据、交通事故处理数据,也有人专门碰瓷、骗保的车,北京高速公路上有200百万辆车,贵阳市区有100多万辆车,每天都有60起快速处理事故,量非常大。另外还有200万驾驶员的信息,有150万的驾驶员信息,会把这些信息汇集起来,如果一辆经常出现刮蹭,多半就有问题,就可以跟保险公司联合打击碰瓷、骗保的车辆。


   运管做事情跟交管类似,也是用大数据的方式,把各种各样的数据进行融合,融合完了以后,会对业务流程进行改造,比如说以前出租车年审的时候没有运用大数据的手段,用了以后提升了效率,只花了以前1/3的时间。运管主要是客运车、旅游车、货车、危险品货运车、驾培车,云管把各种系统进行融合,再进行分析。贵阳道路运输管理局做了这个事情以后,他们的系统在全国交通运输工作会议上做了汇报。比如说运管系统出来以后,在公交线路的设置和优化方面也是运用大数据的手段看哪些区域的情况是怎么样,在设计公交线路的时候,就会用大数据的手段来看一下,可以通过系统来帮他设计一些公交线路,做一些公交线路的优化。


   交委在省里叫交通厅。交通厅利用这些数据做了拥堵情况和能耗排放情况的分析,具体怎么做呢?利用7200辆出租车上摄像头的数据,GPS定位的数据,算上不同时间段的距离运算速度,就会知道拥堵的情况怎么样。这样的话,颁发了交通指数,0—2是畅通,2—4是基本畅通,4—6是拥堵,6—8是中度拥堵,后面是严重拥堵。另外,也发布了交通的流量,实时路矿信息,发布出来供行人参考。同时,还可以利用出租车行进的速度做能耗和碳排放的计算,可以看到能耗的消耗。这是我们帮助贵阳交委做交通的拥堵和能耗的监督。


   交管、运管、交委、公交都有很多的数据,这些数据是很有价值的,比如说保险公司可不可以利用交警的数据对开得少,驾驶习惯、违规违纪比较少的车保险可以降低一点,可以利用运管、交管的数据做很多业务上的创先。贵阳的交警把自己内部的数据和公交的数据全部开放出来了,开放了7大类,10几个小类数据,每一个小得是用App的形式提供出来,创业人和开发商可以利用这些数据开发一些应用,在上面拓展新的业务,拓展新的商业模式。现在有40多家在这个平台上开发这个应用,比如说有迅停,是深圳一家公司,在贵阳设了分支机构。他们主要以居民停车场为主,自己拥有停车场也购买停车场,也帮别人经营停车场,他们就需要利用交警的数据做这方面的引导。车来了是公交车提示软件,短短的时间内安装下载量一下子几十万,在贵阳那边非常受欢迎,上面可以做一些广告,公交车什么时间来可以看到信息。你要坐哪辆公交可以做线路的优化,车来了利用开放的公交数据做了这样的应用,在上面进行业务的拓展。滴滴打车把交警的数据也结合了进来,做了尝试。


   交通的大数据孵化器是数据的开放。政府的数据资源非常丰富,包括淘宝、腾讯,他们都有非常丰富的数据资源。数据资源很多时候被独家拥有,政府是公共部门,如果数据能够开放出来的话,大家还是可以很好的应用,现在地方在做数据开放平台,我们可以看到在交通领域贵阳数据孵化期做的比较好。


   前面讲了一些案例,德拓做成什么样子了,但是没有讲用什么方式做的,用什么技术手段做的。接下来讲一下德拓是用什么样的技术手段实现的。


   贵阳交管做了两个月的时候就得到了市委书记的肯定,我们的开发进度和效率非常高。为什么我们能在这么短的时间内开发出来,得到领导的认可,受到客户的认可,我们用的是什么方式呢?


   最底层德拓有一个分布式的集群云存储,我们有一对软件,用类似PC服务器的软件实现超大规模的存储,存储的容量最大可以做到64pb,甚至以上,并发带宽可以做到100GB以上。这是用软件使显得,在便宜的硬件上面。你可以用旧机器做,当然整体的利用率没有德拓那么高,性价比没有德拓那么高而已。第二层是超融合的云平台,就是基础架构服务的云平台,里面包含了底层分布式集群云存储,也包含了服务器的虚拟化、云计算、软件定义的防火墙等,在这个层面里包含了服务器的虚拟化、容器、存储、网络、防火墙,全部是软件定义,或者可以理解为虚拟化的存储和服务器防火墙。最上面一层是云管理平台。大家会问你们是怎么做到的?我们也是基于开源的技术做增强、修补、完善,然后在上面构建出来一套系统。最上面有一个大数据融合分析平台叫DANA。


   最底层是交通领域各种数据源,通过基础引擎,比如说数据采集技术、数据存储技术、离线计算、实时计算,多维分析查询、机器学习等等技术模型都有。模块很多,我们组成最大的四个模块。第一个是D-Fusion,是做数据采集融合。第二个是D-Vault是数据存储平台,包含内存数据库、内存仓库、关系数据库、文件型数据仓库。第三个是D-Mining,我们把流计算、实时计算的工具、多维分析查询工具、机器学习、深入学习的工具包含在这里面。第四个是D-Vision,支持多种格式的展现工具。整个系统架构全部采用虚机,比如说大数据模块,在交互的时候是容器为主,全部采用分布式的架构。需要多少就提取多少,少层是私有云平台,你可以在上面自己快速的把虚机、容器、存储的空间弄好。大数据平台交互的时候可以是软硬一体化的一体机,也可以是纯软件版本。


   我们是软件定义的大数据中心。它可以带来什么好处?第一采购更简单,你选购一家就可以了,不需要各种各样的工具,采购完了以后开发也比较简单,可以直接在容器上面开发,开发、运维、部署、发布、测试都会比较方便。运维也会比较简单,因为是一体化系统。服务可以找一个厂商,帮助你做全部的后期服务就好了。它可以更快上线,弹性更好,因为采用分布式架构,可以根据需要增加硬件资源。对IT人员来讲技能要求相对来讲低,不会那么复杂,当然投资的回报性价比会更高。从业务上来讲,通过这样一套系统,有合作伙伴愿意跟我们合作,我们愿意把行业的经验和产品的经验传授给我们的合作伙伴 ,我们希望通过合作伙伴帮助我们拓展市场。如果在某一个项目里没有合作伙伴愿意做,我们本身也有开发团队,基于大数据应用的团队都可以做。


   整体来说,德拓这一整套软件可以帮助交通行业的朋友提升管理水平,构建一个智慧的交通系统。


   我的介绍就到这里。谢谢大家!


   陈清凝:论坛前三位主要讲了交通运行方面的大数据应用,在城市当中停车的问题是我们不可忽视的问题,大数据在停车问题方面能做些什么呢?下面有请武汉大学策划遥感信息工程国家重点实验室博士,镝次元数据科技有限公司郑杰跟大家分享。


   郑杰:大家好!我是镝次元技术总监。今天给大家分享的题目是“大数据驱动的城市车位共享”。为什么分享这个题目?是有原由的,我们在7月21日参加了深圳城市数据创新大赛,在这个比赛中我们的作品获得了二等奖,所以今天想跟大家分享一下。


   首先介绍一下这个比赛,21号才从深圳回来,这个比赛是跟上海城市大数据比赛一样,是政府举办的,目的主要是通过政府平台开放一些大数据出来,比如说交管委的数据和公安的数据给各种创业公司、高校发掘一批很好的想法改善城市管理的问题。


   我们解决的问题是停车方面。首先,停车难北上广深大家深有体会,根据深圳晚报官方数据介绍,2015年超过了320万辆,停车位只有104万个,缺口很大。停车难的问题日益凸显,大家在外面吃饭也遇到这样的情况。针对这样的问题政府就要修建停车场,就又如何规划停车的问题。我们提出了一个方案,通过大数据结合小数据,这里的大数据是指深圳市政府提供的交管数据、用户刷卡数据,以及真实的停车需求数据,结合大小数据进行迭代、训练、纠正,给政府提供决策支持。


   总体思路是政府需要新建停车场,通过政府提供的大数据驱动形成初步的选址规划,会有成本高、周期长的问题,因为新建一个停车场会遇到这样的问题,所以我们采用开放小区的模式。同时开发了App端的程序来搜集市民的精准需求,在我们的模型里不断地迭代、选址,形成为政府提供精细规划方案。根据深圳市政府给我们的数据,主要包含轨迹数据,给了500GB的出租车GPS数据,这些数据最原始,需要清洗,我们可以用这个数据提取城市的热点区。伟停数据可以间接的反映市民的停车需求,是深圳市交委提供的。用户请求数据,我们可以通过App程序搜集,用户可以请求发布需要停车。小区数据主要是通过网页爬取,包括这个小区的房价、容积率、绿化率等关于房子的多维度的信息。停车场数据,是深圳市政府提供的数据,还有一部分是在网上爬取的数据。公共地图的POI数据、路网数据、自备数据。


   初始规划阶段主要是利用这几类数据通过反地理编码、通过算法把数据出四个规划图叠加在一起形成深圳市停车需求的初步分布。通过初步分布以罗湖区为例可以得到两个需求的,一个是翠竹公园附近的地铁三号线。


   我们通过迭代优化可以确定停车场的选址规划,再通过需求量化方案可以找到可提供车位的停车场,通过结合小区的综合指标,比如说小区的房价、交通可达性会对小区又优先级的排序。最后是小区车位的分配规则,基于伏格尔 法对小区车位进行分配。我们的目的是给政府提供规划,在他们没有精确数据的情况下,通过大数据得到初步的判断,哪些地方可以通过开放小区策略,哪些小区先开放,什么时段开放,提供决策规划支持。这是我们的出发点,我们并不是为了做一个App去搜集用户的数据。


   我们用的一些算法,比如说轨迹噪声去除算法,我们会通过去除算法把噪音点去掉,这是数据准备处理阶段需要做的工作。时空热点的提取算法,我们在DBSAN的基础上引入时间间隔概念,当空间距离小区某一阈值是得到空间聚类,在空间聚类的结果基础上设置时间阈值…,得出哪个时间,哪个地点停车需求最旺盛。地图可视化的算法是很常用的,我们利用这些算法对我们的系统进行实现。


   我们最终出了一套原生系统。分为四个层:首先是基础层,为大数据的处理提供基础层服务,比如用开源搭建了私有云平台,用mongoDB存储用户基础数据。产品分为数据清洗与挖掘、有移动客户端、后台数据管理、大数据实时可视化分析。数据清洗管理阶段,包含噪音去除、轨迹压缩、时空热点提取。


   在移动客户端这个App做的比较简单,因为我们的思路并不是做App程序,主要是提供初步的规划,想着怎么可以跟已经成熟的停车App合作,因为真正做一个App的话会涉及到跟物业打交道,去推广,这并不是我们擅长的,我们的想法是做初步的规划,去和现有的已经做起来的地面停车 商合作,用他们的数据+我们的模型更好的服务大众。


   后台管理主要是对数据的维护和管理。我们当时做了实时可视化的监控,有违停信息、违停路段,会接受App的实时请求,也有各个停车场的状况。规划界面可以通过停车需求点选择,通过查询半径把后选小区展示出来,会有小区的位置和需求电话,周边热点电话情况。


   我们这个项目拿到了二等奖。我们提供了100多个模板,比如说中国各个省分级地图的模板,包括柱图、饼图、现状图的模板。地图方面的模板我们也在陆陆续续的上,这个能做什么? 把数据按我们的格式贴进去,就会形成相应的图。通过这样的方式,可以很快的把图做出来,同时还可以把它倒出来,可以修改它的标题,可以隐藏图例。可以倒成高质量的图片。从模板到数据,你脑海里已经先有了想要做时间样的图,你才去选用这样的模板。


   同时,我们提供了从数据到模板。你拿到数据之后不知道要做什么图,你可以选择把数据上传,选择可视化的维度,我们会各种各样的模板推荐给你。我们会把维度分配到相应的页里面,可以换一个模板,是带时间轴的模板。我们会有各种各样的模板,想做酷炫的图,我们是以SaaS服务的,生成的图可以很快的分享出去。

我们不仅做图,而且提供了写作系统,做的图可以直接插入到文本里,就可以形成图文,可以插入表格和图片,这里我们还可以做动态的图表,可以用数据驱动。我们平台上已经有很多用户自发的进行数据写作,比如说你作为数据分析师,把搜房网数据做数据分析,如果你想可视化,不妨到我们这儿试试,可以很快的呈现出来,可以分发,而且在手机端看也是没有问题的。


   我就讲到这里。谢谢大家!


   陈清凝:停车是我们现代生活中碰到的非常大的问题,相信假如咱们的作品能够有效的解决这个问题是非常有市场前景的。下面我们跳到旅游行业,旅游被认为是六大幸福产业之首,智慧旅游在近年被非常多的提及,大数据在旅游行业有什么样的应用和影响,下面有请携程机票资深数据产品经理李宁里给我们分享他们的一些实践。大家欢迎!


   李宁:大家好!


   我是在携程机票做数据分析,很愿意来这样的场合,很高兴有机会机票这个场景下的数据分析。如果大家对互联网,或者对传统的平台有兴趣,大家可以了解一些这方面的情况。


   首先,做任何数据第一步是要先看场景,如果今天站在这里作为携程机票的人讲数据,但是携程整个发展是向下的话我今天就不用讲了,为什么讲机票的数据分析很值得听?如果你在2012年买了携程的股票,赋权前的价格,从不到8块涨到了52块,上周五是57块,大家可以算一下涨了几倍。对于一个机票行业来讲,增长这么多蛮有的聊的。我想聊一下,在机票快速增长的时候数据分析应该做什么事情,或者说应该注意哪些问题。这是今天我要说的问题。


   如果大家不在互联网做数据,有一个问题就是数据从哪里来?见面几位资深的同行会用爬取的方式,会有传感器记录的方式,可能会有各种各样的方式。在互联网领域,为什么互联网数据讲的比较多,是因为互联网获取数据相对容易一点,因为不是从手机短找规律。我之前写过一篇文章,对于携程机票从App建立以来经历了4—5种埋点,没有一种埋点是全世界通用的,大家可以选择适合自己的埋点。如果大家以前玩儿GA的话,有一种该UTM,就是记录你营销活动分析,携程改成了Ctm,这个埋点可以记录携程在各个渠道投的流量。看视频网站的时候会看到携程,你点进去会记录你的行为,这是一个埋点。


   Trace埋点,如果大家用过携程机票,你首页点选儿童Trace会记录。每个页面一个埋点,记录这个页面上所有的信息,出发到达城市,勾选成人儿童,单程/往返信息,区分人群类型的转化率。


   携程是一个中介商,卖别人的机票,我们就要考虑怎么排序价格,怎么定义标签。在很早的版本有商务优选、航次直销,现在标签去掉了只剩价格,对于价格怎么排序?对土豪展示高一点的价格还是低一点的价格,我们在考虑是否可以根据兴趣爱好定价。我们把大流量的埋点放在服务端。通用埋点是PV、UV和页面停留时间。


   报表体系:报表非常常用,每个公司都有报表工程师。我说一下报表怎么用,在任何一个大公司都有一个问题,领导跟你要一个数据,你会从不同的渠道拿道不同的数据,同一个转化率的指标,同一个部门的不同人拿到的数据,你会发现数据不一样,在大公司肯定有这种情况。这是什么五问题?有两个手表,当我有一个手表的知道几点,当我有两个手表的时候,一个指向3点,一个指向8点,你告诉几点,没人敢说。为什么很多大公司出现的情况是很多人宁愿拍脑袋决定也不想看数据,因为他看不懂数据,因为不同的人给的数据不一样,每个人都说我的数据没问题,你可以放心使用。报表有两个作用,第一是BenchMark,必须有一个全公司统一认可的报表作为基准,其他数据与此不同则以此为准。第二是数据Sense:每天关注公司整体数据,记住一些常用指标、分析问题了解提升空间。


   我在产品经理的团队做事情,产品经理、数据分析师每天不会看太大的数据,KPI是某个页面或者某几个功能的指标,看报表很重要的作用是让你有一个基本的数据Sense。假设今天你作为一个功能点,你有一个指标,你要对比这个东西跟主流比怎么样。你知道公司整体每天是什么情况,你知道什么叫正常,才知道什么叫不正常。报表最主要的就是这两个作用。


   大家想了解ABT吗?携程做ABT做的非常好,携程光上海就是两、三千人,这么大一个公司能够不断地向前走,在公司会议上汇报项目的时候不汇报ABT结果,那这个项目就不用汇报财务数据了。携程对ABT非常重视,从上到下必须拿数据说话,必须告诉这个地方哪个东西差了,是转化率增加了,还是你做哪些事情。


   大多数改动都不会大幅度提升KPI,所以你需要耐心。每个页面每天做大量的实验,用户没有那么明显的感觉,因为都是小步快走的方式,让你感觉不出来,真正想买票的人看到的不一样,会有变化。根据概率来讲,可能某一次会碰上很大的改进,那是因为大量实验排除之后剩下的那个改进。虽然在携程有很多看起来很不起眼的效果,但是有很大的收益。比如说在携程如果大家买票的时候,填写的时候当你点回馈,我们行业话叫挽留。大家买东西的时候,人家会问,你要不要再看一看。携程做的是“你真要得离开吗?”这是老版。现在有了新版本,我告诉你现在有多少人正在看这个航班。比如说北京到上海的航班有40多人看,弹框上面有确定、取消、继续回退,搞笑的点确定继续往下走的人没有增加,但是最后买票的人增加了。这个弹框是给用户一个种子,像中国人到一个店里买东西,说这个东西挺好,要不你再看看。说,不了。出了这个店,到了一个街口就想,要不然还是买了吗,这个弹就是这个作用。这个实验收益非常高,什么都没动,就做了这样一个改进,收益就非常高。


   我的意思是说,大多数改动不会提升KPI,所以你需要耐心。这个东西不是我们凭空想出来的,是我们经过了大量的实验需要改进的地方。我们发现基本所有人买票都有弹窗,我们就想这个弹窗是不是能改一下,我们也不知道怎么改,我们只能去试。所以做了ABT,它的魅力在于你无法预知效果,但是事后才知道可能是这个样子。


   点击率很容易提高的,但是流失率很难改进,千万不要把精力放在优化某个页面点击上。这个很有意思,你在按纽放大就会提高点击率,但是后面的点击率不会上升。之前我们陷入一个困境,我们认为用户点击量越多的地方我们就想降低点击,任何加速用户响应时间的改动,就会有正面的提升,想都不用想浮浅最好。但是降低点击率这个事情没有结合用户心理行为的事情都是错的。


   几千上万的用户才容易展开高效的ABT测试。如果App日活几千上万的话,如果这么小量的用户的话是很容易波动的。这样就没法做了。


   产品迭代中所需要的数据分析技能是指什么?产品迭代需要数据支持,我在思考数据对产品的迭代能带来多大的价值?如果没有数据,产品是拍脑袋,能挣多少钱,如果有数据这个产品能挣多少钱?数据分析在其中产生的作用是什么?或者说需要什么样的技能?


   一是把非体说的一句话。“如果要拥有一种观点,如果不能够比全世界最聪明、最有能力、最有资格反驳这个观点的人更能够证否自己,我就不配拥有这个观点。所以当茶礼真正地持有某个观点时,你的向想法既原创、独特又几乎从不犯错。”


   推动这句话我认为,如果产品经理没有资格否定自己的观点他就不配拥有这个观点,因为这个观点很容易被别人否定,但是数据可以做到这一点。携程在机票产品迭代之前,产品经理有任何想法都需要有数据验证的过程,这个东西可能会带来多少收益,因为如果没有数据验证就没有ROI,没有预期收益产品就没有资源给你,没有资源给你就会无限延期。所以在产品经理和开发之间形成默契,你告诉我这个东西不好,什么地方不好,你要预计好了之后能提高多少的转化率。


   二是知常曰明,不知常,妄作凶。——道德经。


   这句话道理很简单,给你一件事情就分析呗,分析起来好象不太对,数据好象有点偏高,你只是陷入一个循环,没有认真的思考问题。我认为要提出假设,验证假设,对具体维度上不断Break down,定位到问题原因。难点在于分析问题理论上有无限多维度可以分解,基于对业务的理解和数据sense以梯度的方向最快实现闭环。


   现在的数据分析我已经交给产品经理做,我会做更深入的机器学的东西。为什么交给他们?他们天天跟业务接触,你知道正常是什么,就知道不正常是什么,这是一个很基础的理论。虽然很基础,你能在这里用好,你能知道正常是什么,你就会很厉害。


   说一个误区。老工程师在解决设备鼓掌得到1W美金的奖励,解释道:画那一条线,只值1美元;而知道在哪里画线,则值9999美元。


   不知道大家看见这个故事有什么想法。我看到这个故事就想,这个人是不是在吹牛?好像说的很轻松一样,我自己做具体的工作的时候会发现最开始的时候肯定是从工具开始,如果你不会SQL那你不用做了。你不可能为了分析本格数找人单独写一个SQL,那要等一个礼拜,早就忘了分析闭环当时是怎么想的了。我认为SQL技能是完成刚才分析闭环中的一步,这是作为初级分析师最重要的东西。但是这只是一个敲门砖,没有听说哪个非常牛的人说数据分析用好SQL就好了。我也在想为什么会这样,看很多工作简历SQL都写在后面,这是一个必备的技能,这不是你进阶的技能。进阶的技能是意识,你知道什么是正常的,你怎么分析问题,怎么看待问题。产品经理有理解力,他们只要学好SQL,可以做机票分析师,但是你只会写SQL的话不会做一个很好的机票数据分析师。


   做数据分析师最重要的是场景,要在那个环境下,要在那个应用上去看。为什么SQL不重要,SQL只是很基本的搬砖,但是如果你能在场景下,在机票里面每年几亿的营业的KPI里通过不断地从数据里发现各种各样的案例,可能会有几千万、上亿的收益,这可能是真的。这就是数据分析的价值,才是数据分析给社会带来的收益。如果只写SQL可能也很好,但是你的影响力没有那么大,如果有几千万以上的收益,你的影响力就会大,你的改进点产品经理就会去推动。大公司很常见的是数据分析师提出的新的迭代点没有人听,觉得这个不重要,如果你能经常产生出可迭代的产品,信任就会联系的越来越紧,联系的越来越紧的时候你会变成非常优秀的数据分析师。


   个人非常喜欢马云的一些演讲,因为他的很多东西都是对未来的趋势判断,我会分析他背后讲的是什么意思。他在4月2号深圳的一个演讲说“另外,很多的技术活,你认为是纯技术活,很多白领都没有。大数据、云计算、数据分析师是不是很火,十年以后没有数据分析师这个职业了。”他在很多场合提到了这个问题,他提到了数据业务化,业务数据化。我看别的演讲,他会不会在演讲中说一个错的东西,至少是他故意说错骗我们跳坑的事情,这个可能性有,大家概率非常低。所以我会相信他说的这件事情,因为我觉得我没有他聪明,所以我选择相信他。


   他说十年以后没有数据分析师这个职业,我虽然相信这件事情,但是我没有办法解释。但是我会想,如果这个职业消失了,我现在要做一些什么事情?从灭亡的角度来看会发展的很好,是一种向死而生的概念。

1.从被动变为主动:被动接受问题写SQL的分析师大概率会被机器所替代,具备业务sense的分析师能够主动从项目中发现问题可能会存货的稍久一些。


   去年我写了2000多个SQL,这种事情在初期熟悉业务的时候很重要,但是后面这种机械性的事情肯定会被机器所代替,现在出现了很多平台,我们跟去哪儿交流,现在已经有一些SQL平台,输入一些参数就会出来一些结果,后台可以自动编译成SQL,这是一个趋势,因为这个本来就没有什么价值,完全可以复用。能从项目中发现问题的人老板会喜欢,因为能赚钱,本来这个事情今年指标是1亿,因为你多了5000万,哪个老板都会喜欢。我认为,这是数据分析师很重要的功能,你能帮助业务部门找到东西是你的价值,这是为什么他能发工资给你,而不是产品经理自己看报表就好了。


   2.以结果指标而非过程指标来考核:数据分析师以SQL的数量、报表的数量等过程指标来考核,必然会以更低成本的机器所取代;要敢于以承担增长指标来表示对数据驱动产品的信心。


   现在很多公司都是这样,哪个公司的BI工程师是按照今年2000万的指标来评价今年工作的?至少很少。大多数公司都是以今年你接了多少个需求,你做了多少个报表,你做了哪个体系的东西,或者你在某个项目里提供了分析,这个项目很意外赚钱了,分你一点儿。所以BI部门是一个防御性的部门,每个公司担心未来会被无限制占领,即使你认为不需要也要有一个,大小无所谓,一定要有,我要花钱养着这批人。这个过程中对数据分析师本身来讲,只是出于写SQL,简单做重复性的工作,未来肯定会被更低成本的机器代替,这是一个趋势。如果你认为今年可以完成2000万指标,你不管在哪个公司都可以做很优秀的数据分析师。


   我入行才两年,我之前是在一家公司做营销,管渠道。后来发现觉得这个生活不是想我要的,所以我转到数据,从二维开始,两年时间发了很多文章,开了很多专栏。我要从经历告诉大家,我是转行做数据分析,我只花了两年时间可以站在这里讲给你们听。你们是数据分析师,未来也可以让我在这里听你们的分享。不是人人都可以做数据分析师,而是人人都可以自己做想做的事情。我会发展,相信未来一年我会更不一样,因为每年我都是一个样子。可以通过某个人的经历看到他是怎么想的,如果有可以学习的地方你就可以借鉴,如果你觉得是错误的地方你就可以排除。


   我的演讲就到这里。谢谢大家!


   陈清凝:感谢李宁的分享,他教给大家更多的是数据分析的思维。携程作为一个资深的线上旅游机构,给旅游出行和选择方式带来非常大的影响和变化,携程推动了旅游市场的变化,作为智慧旅游中非常重要的一部分。最后由我为大家带来最后的分享。我叫陈清凝,我来自北京清华同衡规划设计院研究院,我们是从事规划工作,我们部门希望在城市建设的前期进行大数据方面的辅助,我们不光关心城市建设的前期,我们主要做的是城市现状、城市运营大数据工作,所以我们关心的方面很多,包括交通、产业、人口,主要服务对象是政府部门。在过去两年我们做了非常多的大数据咨询工作,包括北京市政府、长春市政府,我们也跟一些互联网公司合作,BAT、滴滴、摩拜都跟我们有合作,摩拜的骑行白皮书和春季报告都是我们做的。


   我演讲的题目是“再论旅游信息化,我们到底需要什么样的智慧旅游?”


   介绍一下旅游产业的本质。旅游作为一个消费行业具有自己的独特性,我们可以把旅游行业分为四个主要角色:一是游客;二是景区目的地;三是政府;四是线上线下旅行社。这四个角色之间有一定的相互关系。旅游有异地性和一次性的消费特性,旅游行业所有的消费基本上都来自于游客;景区提供服务的功能;政府主要是监管和规范。以前信息不对称,旅行社提供旅游服务过程中掌握了绝大多数的主动权,他们提供的产品比较单一,水平也不高。随着信息技术和互联网技术的发展,旅游行业有了非常大的变化,主要是三方面的变化。


   一是旅游个性化消费增加。游客不再局限在传统的旅游产品,自由行、户外、摄影、房车等个性化的旅游日趋热门。


   二是目的地具备更强的直销能力。因为网络提供了非常多元的渠道,使得目的地对接市场的能力更强。所以景区分析可以不再依赖旅行社作为媒介,可以直接的为消费者提供服务。图上是朋友圈中的广告,景区可以通过微博、朋友圈、App进行更加多元的营销,可以促进游客二次、多次消费的粘性。


   三是传统的旅行社业务萎缩,互联网+旅游服务机构增多。传统的旅游业利益来源于信息的不对称,比如说像飞猪这样的平台类服务商、传统OTA服务商、旅游社交类服务商的出现带来了非常多的渠道,使得原来的一部分利益发生了变化,新的线上旅游机构也能够为游客带来充足的信息和多样的选择。


   最后不得不提智慧旅游的政策也是需要强化的,在各地进行了很多试点和建设,说到底智慧旅游的内在动力是科技发展带来的游客出行固定成本的降低。包括获取信息、出行选择的时间成本、出去消费、景区营销成本、制定旅游行程、景区在数字化方面建设的经济成本,这都是智慧履行创造出来的价值。


   智慧旅游的外在影响:一是大量的成本降低必然会造成市场的波动,从卸影响市场利益的重新分配,也就是整个旅游市场蛋糕重新瓜分的问题,所以外在影响主要是传统旅行行业结构的优化和提升。传统旅行行业因为信息不对称带来了非常低效的服务。二是智慧旅游能带动上下游相关产业的发展,比如说景区、酒店、餐饮能给上下游带来更多的商机。三是智慧旅游的关联性还可以与工业、交通、航空、教育、科技等进行写业态的融合,助推旅游经济的发展。所以我们要为智慧旅游进行再定位,这四个角色他们在智慧旅游的发展过程中都有自己所需要做的事情,也有自己必须去做的事情。假如非要给它再定位,智慧旅游是撬动旅游产业的供给侧转型,包括它打破了许多的孤岛,寻找更加广泛的粘合,寻求各方需求的公约数,推动各方数据的融合,通过最小的投入实现最大的效果。


   案例1—黄山智慧景区


   荒山智慧景区以硬件设施和平台系统维主要特点进行了建设,包括我们比较熟悉的摄像头、智慧大屏、无处不在的二维码,扫一扫可以获得景点的信息,包括与支付宝、口碑网进行信息的共享。


   案例2—扬州瘦西湖


   推出了“互联网+购买、游园、竞销、管理”,同时还加强了政策上的智慧化,提升了旅游体验。在游览当中虽然这两个景点非常出名,但是我们会想真的给游客的旅游体验带来提升吗?我们总结了一下,发现现在的很多智慧旅游的建设是偏向于硬件和基础设施,目的也是更偏重于行政管理,并没有从游客的家度出发提升体验。除此之外,现在许多线上行业的大玩家也形成了,可能会导致一些行业发展的惰性。基于此些问题,我们认为旅游产业的供给侧转型应该以人为本,游客是旅游行业所有利润来源的背景下我们更要以人为本。


   我们认为,智慧旅游的目标是创造价值,是通过智能手段洞悉世界,通过互联互通连接行业碎片,提升旅游行业的基础,创造价值达到多方共赢的目标。所以我们认为数据是智慧旅游发展的重要基础。从营销、服务、管理三个方面介绍一下我们团队的实践。


   营销方面:


   1、大数据分析了解市场现状,挖掘潜力市场需求。


   我们通过手机或者是定位数据看用户画像,看经过这些地方的用户有什么样的需求,挖掘潜在的市场,更好的把握市场需求和偏好,了解旅游目的地的形象和期待。


   2.旅游品牌市场定位个性化。


   我们做了国内外海岛的评论和攻略的语义分析,看主要人群的需求和语义,包括京津冀所有等级门票的分布,以这些为基础为资深的景区做市场化的定位。


   3.大数据精准营销,实现营销希望的定量测度。


   这个大家不陌生了,主要是通过到达这些景点的用户识别他们的标签,可以利用手机、App后端数据找他们的画像,理解他们的偏好,再进行有针对性的营销。比如说朋友圈当中的广告,提高营销的转化率,同时也可以降低景区在营销方面的成本。


   4.新型旅游线路和产品设计。


   通过大数据识别热点旅游路线,也可以分析不断优化旅游线,提供新产品,把游客从被动接受旅游路线的产品变成为更对游客胃口的产品和规划。


   服务方面:


   1.主要是从政府和景区管理的角度出发,为基础设施和商务服务设施提供群面的体检,从旅游当中的六大要素,也就是食、住、行、游、购、娱进行全要素的分析,发现各种设施在供给侧方面的问题。厕所革命在旅游行业是一个很重要的问题,希望把这些问题剖析出来,让政府和景区意识到属于什么样的状况,他们也好更有针对性的进行优化。


   2.游客满意度大数据分析。以前的数据来源是意见簿,现在变成了用各个手段获取网民和游客关于景区的言论,通过分析和挖掘,得出游客和网民对景区真实的态度。在于做草原天路规划的时候,草原天路特别火,但是因为它的部分是景区,所以比较难管,政府想收门票,我们就针对要不要收门票这个事情在网上做了挖掘和分析,最后得出结论网民不希望收门票。把这个反映给政府,他们也觉得比较有参考性和支撑性,所以他们最后就没有收门票。


   3.深入挖掘是需求。我们可以针对不同的问题,进行不同维度的分析,在不同层面提出相应的意见。


   4.旅游服务设施的智慧规划和有针对性的提升和改善。我们需要把需求和供给两方面结合起来,得到旅游服务规划的提升。


   管理方面:


   1.市场监控和预测。这个大家不陌生,很多机构都在做这样的事情,政府与景区方面希望能够实现对旅游市场进行实时的客流、舆论的监测和预警,进行趋势判断,辅助管理。


   2.分析游客的时空分布特征,对突发事件进行预测。比较出名的是上海的踩踏事件,当时引起了很大的争议,后来百度做了一个关于踩踏事件的分析,这种手段都只限于互联网公司内部,应用还有一定的距离。

我们通过这些年在行业的探索和实践,我们认为数据治理是智慧旅游的基石,我们应该从技术侧和应用侧同时对 数据进行挖掘和应用,才能实现大数据与旅游行业的最大价值。


   今天的论坛结束了,大家有什么问题可以扫二维码,或者跟主办方联系,获取后续的报道资料。




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-8-11 16:10:35
谢谢楼主分享!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群