2014中关村大数据日于2014年12月11日在中关村举办,大会以大会以“聚合数据资产,推动产业创新”为主题,探讨数据资产管理和变现、大数据深度技术以及行业大数据应用创新和生态系统建设等等关键问题。大会还承载从政亚信府主管部门到各行各业的需求和实践中的疑问,探讨包括政府、金融、运营商等部门是如何通过数据资产管理和运营,实现转型发展和产业创新的路径。
在下午的金融@Big Data论坛的圆桌论坛环节中,来自政府、金融、运营商等部门的业界精英就《数据资产重构金融生态》这一话题进行讨论。
主持人易欢欢:首先想请教在座每一位,我刚才在听完演讲之后讨论完大数据还是要回归到本原。作为来自不同类型机构的从业 人员,你怎么来理解和看待大数据?因为有人说大数据是千人千面,每个人都觉得大数据很有用,但是不知道大数据在哪里。结合自 己的工作经验来谈一下您认为什么是大数据。因为咱们这次的主题是聚合数据资产,能不能谈一下对现有的企业来讲最宝贵的数据资 产究竟在哪,具体怎么使用。第三个我想问的就是当前关于数据资产的使用在我们所处的金融环境里面大概是在什么样的阶段,下一 步可能是什么状态?给大家展示一下。
刘贤荣:谢谢易总,最近大家都在谈大数据这件事情,在刚才讨论的时候我也提到过,我们一直在思考大数据对银行意味着什么 ,刚才说了一句话大数据千人千面。我们请教过很多公司也做过很多沟通,大数据感觉是有几个业界的通用的定义。但是一旦落到银 行我们发现实际上这种定义往往都很难以去落地,其实你如果为每一个人的话,大家对大数据的期望都不太一样。当我们跟业务部门 沟通的时候,业务部门首先就问你们在搞大数据的时候是不是我们传统意义的帐目就不用做数据了,大家一谈数据就是多种类型的。 最后我们总结完之后大家形成了一个共识,我们认为大数据实际上是能够为业务上带来价值,让我们更紧密的了解客户,然后可以让 我们优化流程的所有数据对我们而言都是大数据,这是从圆的视角来看。虽然我们讲数据是资产,但是数据摆在这里不是资产,因为 我们不是做交易的,银行我们最终是提供金融服务,所以我们最终是围绕金融服务如何做得更好。对我们而言我们理解的大数据是怎 么利用各种内外部的数据帮助我们更好的决策,帮助我们更好的了解客户,帮助我们更好的管控风险,帮助我们更好的优化流程。这 里面是数据加分析加应用,这是我们理解的大数据,它变化了一个体系。
反过来讲,从这个视角来讲,我们现在银行领域要谈大数据,我们最关心是两个事情。第一个是怎么样激活现有数据的价值,包 括征信的数据,包括内部交易的数据,其实我们数据也不少,可能可以到P级。但是我们面临最大问题是怎么激活,怎么真正的让数 据说话。第二是怎么活,我理解大数据里所谓的活就是通过数据可以在一个特定的场景,比较活的场景里把客户的行为、爱好和风险 还原回来,这是我们做大数据的最终的目标。希望以后在大数据的整个体系里,我们以后和外部的数据公司也好,买数据也好,做数 据分析也好,最终我们的数据的体现在银行里面是通过数据让银行变得更智能,这是我们做大数据的初衷,也是我们做大数据的最终 的目的。
如果让我把银行资产做分类,其实银行第一类资产是银行和客户的交易,以及记录的客户的静态数据,这是传统意义上银行主要 的数据资产,比如做信贷和支付,银行数据最大的优势其实银行是天然具有客户的身份信息,做存款或者贷款也好,首先把你的真实 身份会提交给银行,无论做大数据到什么程度,我认为这也是银行最为核心,价值最大的数据。第二类数据就是客户的交易性的数据 ,这个刚才说了,客户的静态数据和交易数据是指结果,什么是过程数据,过程数据就是你到网点里去,你到网点的行为,有些是音 频的,有些是视频的。你在网络银行和手机银行的行为,这是行为信息。逐渐会把行为信息跟我们已经记录的帐户的数据和静态数据 整合在一起,内部就为客户画了一个相。第三类数据就是外部的数据,最近几年来有一类外部数据我们用的很多,就是征信数据,每 一个信贷产品几乎都要用征信数据,除了征信还有别的,像宏观经济的数据,包括市场咨询数据,包括第三方数据等等。现在可惜的 是现在处于一种什么状态呢?基本是处于有需才用数据,这种数据都是在某一个流程里的,比如征信数据就是在信贷流程。未来我们 需要有一个统一数据、统一平台的视角,要打通,不但是数据的一个流程,内外部加在一起形成一个完善的客户视图。
刚才问我们到什么位置上去,这个很难判断。我们有一个数据评估模型,其实评估模型有很多概念,有一种是数据管理成熟度, 还有数据应用的成熟度,你问的问题应该是应用成熟度模型。我不想分得很细,我们到底到了优化还是什么等级,其实很难判断,不 同的领域不一样。分成三个的话我有答案,我们是分析型,比如传统的统计报表型,第二是分析型,第三种是问题导向型或者信息导 向型。我们是第三阶段正在逐渐成熟,往第三阶段发展的过程。
2王晓蕾:关于什么是大数据的定义,我也同意千人千面。我对大数据的理解可能是感性多余理性,地球刚刚诞生的时候和今天 的地球实际是一样的,虽然有一些变化。但是这里面最大的差别是什么?就是在以前的荒芜的年代你的记录水平没有。后来发展到结 绳记事,逐渐到今天的记录,我们可以用一种事实上、数据性的、数字性的,把现实生活中的很多现象记录下来,这种现象包括人的 行为。随着技术的进步,对这种需求上的生物的活动的记录越来越精准,比如说对人的认识,一天是望闻问切,现在是戴个可穿戴设 备,人方方面面的变化可以用数据精准的记录下来。你问我什么是大数据?我的理解就是由于手段的先进,我们逐渐可以把地球,甚 至宇宙上发生的所有事情记下来。这些记下来以后就方便我们更好的了解这个环境,这个环境包括自然环境也包括社会环境。所以从 这个意义来讲,我觉得所有的数据都可以归结为大数据。最初我理解大数据以后,特别是对一个人的数据的记录可以逐渐的去预测这 个人未来的行动的时候,比如连我早晨起来我还没有想到我今天中午可能会去哪里,但是通过对数据的记录已经预测出来我要去哪里 。我马上就会想到,通过这个预测有一天它可能会预测我的思想,之后我觉得这个结论就更可怕了,人可能会逐渐的被数据所取代, 人可能就是灭亡之时了。所以当人的思想可以被某种东西控制的时候,我觉得那个时候世界是什么就不太清楚了,为什么这样说呢? 比如说大家现在的消费为什么所控制?为数据、为广告。刚才讲的推送,销售行为怎么受影响?我上了你的平台,你平台周围根据对 我的认识推送一些保险广告,你已经用数据行为决定了我的消费行为。有一天通过这种推送和方方面面可以决定我的思想的时候,那 个时候是什么样就不知道了。所以我对大数据的理解可能更多是感性。
回到征信中心,对征信中心我们最珍贵的资产是记录了2004年以来中国证券市场上每人个的行为,还有企业1997年开始的最一笔 借贷行为,这对了解中国市场的经济发展规律来讲是非常重要的资产。大数据的应用是两大部分,一个是宏观应用,让大家更好的了 解规律,比如说大家对感冒药的搜索,可以不必具体,但是反映了整个的趋势。另外就是关系到某个主体,就是征信对每个主体的征 信。两大应用,对征信中心来说我们也逐渐意识到、认识到数据的资产的价值是需要发觉的。所以我们也在想尽各种办法,利用各种 手段来利用我们征信数据和价值,从而为中国市场和企业、个人服务。
我们目前的阶段是作为一个征信机构来说最为核心的任务是为每一个借款人提供信用报告,从这个意义来讲我认为我们的系统是 做得非常好的,做得好的原因就在于两点,第一个是行政力量。其他国家大家知道它是自愿的,自愿的结果就是有些机构参加,有些 机构不参加,这样的信用报告所反映的企业和个人的信用状况就不全面。中国有行政力量,同时也是信贷市场发展到现在所有的金融 机构的共同的需要,所以当我们决定建这个征信系统的时候银行相应非常积极。第二点就是当系统建成之后查询是非常活跃的,因为 大家都需要这个东西。从这个意义来讲,从提供信用报告的角度来讲,我认为我们目前的阶段已经是相当不错了,至于扩大数据源的 话,有很多是不受我们中心所左右的,涉及到国家对政府信息公开、立法等等,这方面我们也是一直在努力,到今年为止也在努力。 另外一个就是对数据价值的挖掘我们刚刚开始,我们刚刚起步。随着基础设施、方方面面,包括数据积累的不断的增加,我相信从数 据当中挖掘价值的事情在未来几年会加速。
主持人易欢欢:接下来请亚信的杨总,但是这个题目我想给你变一变。因为前年两位在应用场景里更偏甲方,更偏数据的拥有方 ,像亚信更偏产品的提供方。第一个问题还是一样,亚信怎么来理解大数据,怎么看。第二个想看一下,因为亚信当年的核心的优势 领域主要是在电信行业。现在你的产品应用在金融行业的话,能不能比较电信行业的数据资产和金融行业的数据资产以及侧重点有什 么不一样?还有在技术的应用的阶段上,这两个行业,比如像Hadoop这个技术,Hadoop这个技术在互联网是OK的,但是在金融行业里 面,因为它的交易量非常大,Hadoop的速度比较慢。您怎么看待不同的行业应用的技术的阶段性的问题?
杨晋:我先说第一个问题,就是怎么看大数据,大家可以在网上看到大数据的3V、4V的特征了解很清楚了。我们看到大数据时代 这个书里也提到,就是大数据的玩家分为三类,一类是数据拥有者,像银行、运营商等等,天然的就是拥有大量数据。第二类是没有 数据,就是服务者,像我们亚信一样,我们本身没有数据,但是我们有很好的技术,可以提供大数据相关的平台、产品和服务。第三 类是既没有服务也没有数据,但是有很好的创意,可以在这方面发挥我的作用。现在很有趣的现象是像银行或者像运营商,他们天然 拥有很多大量的数据的公司很多时候他并不强调大数据的事情,说得更多的反而是像亚信我们没有数据的公司,我们不断的强调大数 据应该怎么样怎么样,我们是想更多的通过数据产出更多的价值,数据是资产。原来我们会清理历史数据,因为磁盘容量满足不了存 储需求了。现在大数据是资产的时代,我们很难想象说你的资产每隔一年区别清理掉,我想大家都不会去做这个事情的,大数据时代 数据是重要的资产,有的数据现在可能不一定有用,将来可能会产生重要的价值。数据是重要的资产的情况下,并不是采集下来保存 在硬盘上就有价值,也是要有不同的应用在上面,使数据产生价值的变现,包括在交易市场,在互联网金融领域,等等,使数据真正 的发挥作用。
在这个情况下还需要涉及到一点,现在我们说数据的开放,数据的应用,还有一点就是数据的安全性,如何更好的保证数据的隐 私性。像美国做大数据开放通过采集一些数据做一些分析。有的机构拿这些数据分析完发现某一方公布的一份数据看不出来对这个人 有什么影响,但是我把几方公布的数据做应用关联起来,去确定比如说这个人是什么什么州的,他是学生,在什么医院就医了,把数 据关联起来就可以定位到这个人,这个人的地址,就很可怕了。如果自己在没有授权的情况下怎么保证,这个也是未来要关注的问题 。
主持人易欢欢:亚信最早做电信,现在进入到金融,隔行如隔山,两个行业的数据资产的着重点有什么不一样?
杨晋:从整体来比较数据资产有很多相同的,比如在运营商里像通话、语音,就是话单的记录。银行里每次的刷卡会有交易行为 的记录,这些数据都是很相似的,像有一些帐目和财务的数据,不同的应用都会有这些数据。具体的区别在不同的数据有不同的应用 方面和特征,像运营商里可以做到新的数据,可以通过数据定位到人所处的位置信息,这是它的典型特征,也可以基于位置信息产生 不同的应用。在运营商里拿到数据可以做全景的描述,之前银行做交易数据,或者互联网做的网上行为数据只是谋划一方面的数据, 我可以通过互联网,可以通过移动互联网每次在手机访问一个网页或者应用的时候都可以把这些特征记录下来,这是跨平台,跨行业 的,这是运营商里独有的,非常有价值的数据,现在基于这种数据做用户的精准的定位产生一些广告的推销,做这方面的应用。
主持人易欢欢:Hadoop这种技术在运营商的应用有什么影响?
杨晋:其实我们应用有几种方面,一个是像金融里的银行有这种高频的交易,做一次交易马上收到余额有多少,这对于Hadoop的 技术来说可能没法达到高频次的要求,但是现在说Hadoop说大数据技术,并不只是说Hadoop,并不只是说存储等等,而是包括整个分 布式的体系里,像Hadoop、spark等等,这些都是属于大数据的技术。因此说的实时交易,可能我们Hadoop做不到,可能spark可以做 到,或者其他的高频的流处理技术可以做到。像Hadoop和spark可以用在分析,用在内部的季度性的报表,这些本身处理数据量大, 对传统的架构处理效率低,同时投资成本非常高,这时候可以用到Hadoop相关的技术实现数据的快速处理,同时可以很好的降低投入 的成本,这个是它的一大优势。
主持人易欢欢:您讲讲大数据的标准定义,就是从工作实践里面,互联网门户。您的企业从发展到现在,积累的最宝贵的别人不 可复制,未来成为你们公司业务延伸的杀手锏的数据资产有哪些?第三个就是怎么进一步在这个方面做,处于什么阶段?
许泽伟:最务实的角度大数据对我的意义就是它是我融资的概念,这个很务实的一个事。我们做的时候我们就要进入电商,2012 、2013我们就叫金融大数据了,2013、2014年我们就变互联网金融了。我们正在变成金融交易所,实际上对一个创业者而言,因为我 要说这个意思就是说甭管你在干吗我们都在做数据变现这个事,所谓能变现是因为我们有数据变现的能力,或者我们找到了一定的数 据变现的方法,但是资源、媒体,或者大家乐于去给这个东西一个概念所以就出了一个大数据,所以大数据更像我们融资的一个概念 ,不管叫什么都是我们赚钱的一个方法。就是把非结构化的数据结构化的过程,对我来讲这就是最简单的理解大数据了。实际人类一 直都有大数据这个事情之不过怎么应用了,对企业而言就是变现,这是我的理解,这很务实了。它可以给我标上标签让我有更高的估 值,就叫大数据了,但是有没有这个概念都要做这个事。
第二个最重要的数据资产就是渔和鱼的概念,就是用户和用户在我们平台的有意向的购买行为,这是对我们有意义的。当然更有 意义的就是这些工具了,就是怎么持续扩大这些方法,从应用到分发到营销,当然怎么赚钱还是看你的数据怎么变现。对平台来讲最 重要的是这个方法,方法论,实践的经验,试错的经验等等,这个对我来讲是最重要的及
第三个问题我觉得任何一个领域都是术业有专攻,我从做数据分析的经理到做营销到现在,这是一个生态系统,但是仅限是金融 相关的事情,也可以干别的但是不是我们擅长的,我们服务的人群可能是中小,就是平均个人是20万的,可能他在这个平台交易、贷 款。我举的例子我们平台不是做保险,保险只是一个频道,一个产品。就是所有的交易行为,我们还有可能上升,等等,我希望是一 个平台系统,还是一样的,他做的频次越多,我们收的手续费越多。大的说走就走了,服务小的频次就比较多,还是中小,所以希望 最后是中小用户金融产品的交易所,是这样的生态体系,可以做很多事情。随着我最开始到现在和京东联合做,希望做一个生态系统 ,现在做的也是我现在能想到的最多的事情。
主持人易欢欢:下面的问题给到宣博士,大数据的定义是什么?您这边既服务了淘宝,一些电子商务企业。同时也服务了金融机 构,您认为这两类积累的数据有什么不一样的特性?在应用场景上能否交叉使用,尤其在金融应用上两者之间,像淘宝缺什么,银行 做小微商户缺什么,能不能中间有一个融合的交易平台这是第二个问题。第三个问题还是想请您展望一下,像Hadoop和云计算在这里 的应用,您觉得还有什么是在技术这块比较值得大家去关注?
宣博士:以前数据挖掘经常说我们讲海量数据,就是大数据,海量数据比大数据小吗?我觉得从数据本身来说我觉得只是更多样 化,而且易购。以前我们传统的做数据可能关注的或者经常接触的是结构化的数据,交易为主的数据,现在不管互联网数据也好,传 感器也好,方式不太一样,种类发生了变化。把数据转化为价值,对我们来说没有变,只是原料不太一样,原料更丰富了,对我们也 是好事。我们本身的定位是把数据转换为价值。做数据窄义理解就是变现,就是更高效之类的。但是把大数据讲大一点,作为国家战 略来说就是让社会也好、政府也好、人也好,通过大数据变得更智慧,更美好,包括更自由、更有尊严,这些都是华院角度来看的。
第二个就是金融和电商,金融本身反映很多是跟财务有关的数据,包括现在个人财务有关的信息,电商反映更多的是商品购买, 消费嘛。所以这两类数据反映的角度不一样,综合起来肯定有很多好处。最初包括阿里做小贷也是跟银行合作,开头跟建行合作,后 来没合作了,所以建行做了一个善融,然后天猫自己成立了小贷公司。总的意思我觉得本质来说结合是最好的,本来应该是电商提供 数据平台,金融去做金融服务,我觉得结合是最好的。我相信这个结合是非常多,包括个人消费也是这样。如果个人的信用又基于个 人财务数据,很多时候跟个人财务和还款意愿有关,同时结合个人消费有关的数据,综合起来有一个个人评分更有意义。我们本质来 说也不用数据,我也不认为我们拥有数据,因为已经那么多拥有数据的人,比如有银行,比如电商,比如我们的子粉丝经营的业务有 数据。可能还会有新的个人征信公司,还有像数据堂这样的公司他们也专门搜集数据,而且他们有非常大的众包团队来搜集数据,我 觉得我们本身不必要去做那么多去搜集数据有关的工作。我们就是怎么样把搜集数据的公司和需要数据的公司对接起来,把数据应用 好。所以第二个问题就是我们也站在很好的角度来做我们的平台,可以帮忙机构把运营商的数据也好,把电商的运营商的数据也好, 综合起来。所以第二个问题就是结合有好处,就是最大的好处。但是做起来也不是容易的。