总结:数据分析就是在拨弄各种数据立方体,你可以切片、切块、钻取、汇总,你所玩的魔方每一块,就是一个具体的度量值,是什么数字,则是多种维度交叉后的结果。
工作实践中,数据产品经理会考虑做出更加方便易用的“立方体玩法”以供普通用户使用:
如,在分析客户来电的自动语音导航服务中,我们就可以按不同的维度去对比看用户在导航菜单里按键量,下图所示是“按菜单对比”的界面,在“对比按”中可以进行切换其他对比视角。
至于左侧的两个筛选,也即指筛选数据集合(切片或切块了),比如限定某几个热线和菜单去看。
一张图片
了解了维度、度量两个词,又有了立方体之概念,让我们再来看数据是怎么产生,怎么被放到用户界面上供查询使用的。
巧妇难为无米之炊。数据不是凭空产生的,当需求方提出想要什么样的数据分析的时候。
首先要检视的是,TA需求中涉及到的维度是否确定被采集到?度量的计算成本是否高?比如若一个需求想要分析不同买家分层的留存,买家分层是一个新维度,需求方是按骨灰级、高级、新手等对买家进行分层。且什么叫骨灰级?系统里并未对买家进行打标记,且不同类目的骨灰级算法还不一样,加上算法定义本身也在磨合。这种情况下,我们应该和需求方一起推动业务系统完成打标,而不是自己接下这个需求,在数据仓库ETL环节完成。
了解ETL:这个是做数据工作绕不开的术语,E(抽取、清洗)——T(转换)——L(装载),抽取是从各个业务系统中抽取所需的数据,然后完成语义层、逻辑层的转换,比如不同系统中记录销售渠道这个维度,有的叫做saleschannel,有的叫做channel,需要转化为同一个概念。装载,也可以理解成抽取、清洗、转换好了,装载到另外一个空间里,供多维查询服务应用调用。
当然,则个领域,水很深,我只能简单描述一下,再深的也担心大家晕菜了——毕竟本文是写给非数据人的。(其实作者本人也讲不粗来了……哈哈)
四.应用
我说了,我无法教你具体复杂的数据分析案例。我希望能够借助本文和你分享下如何建立起比较专业的数据分析思路——数据产品经理本身也应该可以是优秀的数据分析师。
三部曲——建立分析框架建立分析框架:了解业务、以及业务想要什么(目标)。
提交数据需求: 根据你的访谈、梳理,得到业务流程、业务愿景以及目标,那么就可以和需求方共同确认“看什么”以及“怎么看”。好的数据产品经理或者数据分析师,永远不是坐等需求方提出他要看什么度量和维度,而是要引导对方看更合适的东西以回答他关于目标是否达成的问题。
进行数据分析:使用多种维度,进行总体的、细分的、多维的分析,当发现问题时,能够使用这些维度的组合帮助用户找到影响原因。
一切都基于你有多了解业务:
下图是几年前的老图了,左侧是业务流程图,右侧是概念中的数字体系示意(可视化是为了更好和需求方沟通)。
PPT里因为存在具体业务的案例,不便分享,到此为止吧。如果有时间的话,我还是会编脱离具体业务的案例的……这就是写博客的苦逼之处,工作中都是工作的案例,为了写篇博客,还得自己再编一套有板有眼的故事……
三部曲——提交数据需求
故意放了张你可能看不清楚的图(o(╯□╰)o),所以别问我要大图了,谢谢~
左侧就是度量分类和度量,从标注了颜色底色开始的就是维度了,标了颜色的也即此指标需要被计算到所需的维度,灰色的表示不需要,黄色和绿色(以及上面的数字1、2),表示优先级不同,黄色的当然是高优先级了。比如黄色上我写的数字应该是1,也即第一优先级。
实际上,依据不同的场景,当然可以有很多简化,比如无需标注优先级之类的。
此外,还需要单独提供维度和度量的详细口径定义说明表格,这时最好和分析师一起,详细进行确认。
三部曲——进行数据分析你提的需求不管是做成报表、还是做成具体可视化的界面,总之如果已经开发出来了,就来玩魔方吧。只是报表有可能你得导出来在EXCEL里玩魔方。(即使是可视化的界面,也依赖于对方设计得是否易用)
最简单的分析是逐级钻取,如:
复杂的则需要多维交叉:
比如,当分析某个APP的Active users, 当我已经锁定某个省份有问题的时候,我们既可以继续钻取到城市去明晓细节,又可以交叉到品牌,看不同省份间品牌偏好的问题。比如是否小城市中安卓品牌的人更加活跃。
五.思考
1. Detail页面的设计师被追责,怎么应对?
某日,负责搜索结果页(LIST)的设计师来找商品详情页(Detail),他好容易做了LIST页面的改版,而且结果也确实喜人,从List页面到Detailye页面的转化率确实提升了(比如原来100万的人来到List页面,只有40万继续点击到Detail,改版后,变成了50万)。但是不幸的是,总体从L到订单的转化率却没有提升,反而下降了。
请问,如果你是Detail的分析师,如何和List的分析师一起想办法分析什么原因?
2. 挂羊头卖狗肉的Banner,怎么用数据证明其反而有害无益?
有时为了爆眼球效应,你的老板会要求你做个华而不实的banner,比如明明活动页(Landing Page)里都是一些屌丝产品,却偏偏在banner上用屌丝的价格放一些高大上的产品图片。想要吸引人点击进去。而确实点击效果很好!过去放凤姐一晚,100个人里只有5个人点,现在放了林志玲一晚,100个人居然有99个人点击。老板很高兴,而且确实成交额似乎是比过去略微高那么一点点了。现在,除了用道德说辞说服老板不要这么做,还有别的方式吗?
六.最后唠叨几句
最后,分享给各位的心得是:
你现在也知道,数据本身需要经过分析师的定义、数据源系统的采集、数据开发的开发以及展现设计,任何一个环节,可能会产出错误的数据,所以数据本身未必100%靠谱。
此外,数据的解读,需要保持谨慎批判之心。比如同样是小明语文得了59分,如果你不了解上下文以及历史趋势的话,会认为小明没考好,有的人甚至会得出小明语文不好的结论。而要是了解他上个季度每次语文考试都只有30多分,又会得出小明虽然语文不好但是明显进步了。而要是了解到这个班级平均分数只有49分,你又会觉得小明简直太赞了!所以,单纯的一个数字本身没有任何意义,要窥一斑,更要知全貌。
此外,数据会被有心计的故意利用,而向你呈现部分事实(他不是在弯曲事实,而是只呈现对他有利的一面),数据本身有那么多维度以及层次,导致解读的方式完全可以被利用。
所以,要记得我本文的最后提点:
对于产品经理和分析师来讲,最针对的是我们基于对于业务的深入理解而产生的直觉。不要盲目被数据拉着走。只有有较好的直觉,我们才能有更合理的假设,有了这个合理的假设,才能够更好解读数据以及提数据的需求。而不是在各种数据的海洋里玩数据的游戏而浪费时间。
本文由互联网分析沙龙精选自Lofter
更多内容请关注CDA数据分析师