数据分析是早期的一些叫法(现在虽然还在叫,但是外延已经扩展了),数据挖掘则是在存储、收集成本大量降低及对数据中提取信息的应用需求推动下,最近几年产生的新称呼。但无论是数据分析还是数据挖掘,要想理解并在实际的业务中应用好,都必须掌握统计学,数据库,机器学习和人工智能的一些理论。
但平常和一些刚入门或者想转到这个行业中的人交流中,发现有两个极端:
一是对这些理论都全部研究和掌握。由于每个人基础的不同,掌握这些理论需要较大的难度,也需要耗费大量的时间。但是从我多年的数据挖掘实战来看其实完全没有这个必要,如概率论完全学习下来至少要一年的时间,但只有几个章节或者定理被数据挖掘所吸收利用,掌握了这些,数据挖掘其实也就迎刃而解了。
二是完全不注重这些理论。这些朋友一个普遍的想法就是学会一两种数据挖掘工具就可以畅行天下了,其实当你学习了三种工具以上时你就发现这些工具其实大同小异,无外乎预处理,建模,模型评估…..,真正能主导数据挖掘的不是工具,而是数据挖掘人员的思维。
希望这点经验能帮助那些没有统计学基础但又有兴趣想做数据挖掘的朋友。