全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析师(CDA)专版
932 0
2016-12-25
如何培养数据分析的能力?

首先
自己不去百度的独立思考,什么是数据,什么是数据,什么是数据?先有了这个问题的答案后,再去思考分析的事情。
什么是数据这个问题,看似很简单,但是可能很多人回答不了,当然,自己思考过后的答案,也没有对错之分。
我理解的数据是:数据是信息的载体。
所以,我们做数据分析是为了获得数据后面的信息。而不是为了数据而数据,或为了分析而分析。
接着,我们从数据获得的信息,这些信息支持或协助我们做些什么事情。
做些什么事情呢?如果这个你不知道,那也不必展开数据分析了,所以数据分析应该是件目的性很强的事情。
目的是什么?(如果有人看似毫无目的的泡在数据里瞎折腾,那大部分情况他是在“找数据间的相关性”,这是他的目的)决定了你要去数据里获取哪些信息。
常见目的分几大类,说的笼统点,如下
往后看的,原因是什么?
现在看的,现在情况如何?
往前看的,未来会怎样?
例如
我现在接手了一件工作:公司想了解一下新积分政策的影响。
WTF?好笼统的问题(如果是很明确的问题,那一般也就是自己手动实现计算了,也没啥意思)
OK,我们先思考下怎么应对这个问题,一般来讲,笼统的问题能做的很大,也能做的很小。我们先把解决方案控制在:计算老版积分,计算新版积分,比较新版积分相对于老版积分的变化。
但问题又来了,积分是啥?老政策是啥?新政策是啥?
这时候你要干嘛?去和公司其他的人沟通交流!先了解啥事积分!
做数据分析难道不要和人好好沟通吗?理解业务吗?沟通时,要能把握重点,提出正确的问题!业务理解也要有常识和积累。
所以,看似不相关,其实很重要。
原来积分是按会员顾客购买金额算的分数,可以用来换礼品。
OK,老版积分的计算呢?直接根据购物金额乘以系数。而且,有现成计算好的,太棒了。
SO,新版积分的计算呢?根据单次购物金额划分不同的系数区间,而且客户累计消费金额划分不同的系数区间。
问题来了,你会算吗?
公司也很人性,甩给了你20G的历史数据,共计60多个CSV文件。然后还给了你一个数据库的访问权限。
然后呢?然后就没然后了,因为不会处理啊。
好吧,这时候得会几句数据库查询语句吧。所以数据库方面的书得看看,或百度些常用查询语句,或自己装个数据库练练。
然后发现csv文件用execl打不开,因为文件太大。而且有60多个,一个个处理也要死人。好吧,至少学个能处理问题的编程语言。推荐python。
ok,数据库、python。这些工具先学一下。
假设,这两样入门了,搞定了新积分的计算(具体问题中可能会有各种小坑要爬)
然后开始对比呗。
历史的很好对比。老的新的减一减。
未来的呢?
哦,no!我不想把问题弄太复杂,对比下积分变化分布,按月平均的预估下下个月的积分情况,告诉领导,下个月积分可能会增加20%,而且主要是因为个人消费积累的金额区间系数变化导致的!毕竟只有自己一个人,光是写计算新版积分的程序已经死掉大部分脑细胞了!
交差,领导拍拍肩膀,说,嗯,不错不错!毕竟,他可能自己都不知道自己想要什么。
可能晚上睡觉时,你会想了,新积分计算方式的变化,会不会改变客户的购买行为呢?毕竟买的多系数会增加?会不会增加忠诚度呢?毕竟买的多积分会增加?积分变化导致的礼品成本增加在量有多少呢?
可能在你睡觉的时候,因为这些问题,你的潜意识也在提高业务的理解。数据又反补你对业务的理解。
到这,你满意了么?至少给出了59分的答案了。或许在很有意思的预测建模上,咱们没发力呢?搞些机器学习模型不?新政策推出后,跟踪前后购买行为的变化不?反正有一堆问题没弄明白。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群