近年来,由于存储设备的单位成本以惊人的速度下降(1G 硬盘空间的成本现在只需要几美分,这在过去难以想象),我们可以轻而易举地积累起大量的数据。
很不幸的是,我们得到了大量的数据,而这些数据中的绝大部分,在它 的生命周期里基本上都被闲置着,直到今天,我们对数据的 处理依然停留在按预定指标进行统计这种很低的水平上。造成这种情况的原因有很多。一方面。在各公司里保管数据的大多是IT人员,他们对业务的了解可能并非很深入,而业务人员也鲜有对数据有深入认识者,他们通常都缺乏必 要的数学素质和知识基础去进行建模和深入的分析工作。另一方面,
数据分析专家具有深厚的数学处理能力,善于建模和构筑算法,但是由于无法得到合适的需求, 他们的能力也无从施展。另外数学家、统计学家们很多并不熟悉现代的IT软硬件设备的特性,对于集群、分布式系统、大规模存储、云计算、数据库等认识几乎为零,对于算法的实现可能还停留在对着PC写C语言程序的水平上,对于海量数据,无法利用现代化设备的能力,使到算法是否能真正实现变成生产力存有很大的疑 问。
学习收获预期:算法有一定的了解,有一定的使用SPSS解决问题的能力
课程内容:
1 基础数据分析知识,包括一些概率统计里的概念、术语,和基本统计量的计算方法等。
2 一些常用的数据分析和
数据挖掘算法,以及有关的各种领域里的实际应用案例分析
3 流行数据分析软件SPSS操作和使用方法
详情:
第一 SPSS概览, SPSS安装与进入,数据文件的管理, 建立与保存数据文件-File,能够编辑数据文件,从原有变量计算新变量
第二 Descriptive Statistics菜单, Frequencies,Explore,Crosstabs过程,Compare Means菜单, Means过程,One-Samples T Test过程,Independent-Samples TTest过程
第三 Compare Means菜单, General Linear Model菜单,两因素方差分析,univarate协方差分析,其他较简单的方差分析问题
第四 General Linear Model菜单,多元方差分析,重复测量的方差分析 , Correlate菜单
第五 Regression菜单,Linear过程 ,Binary Logistic过程,NonparametricTests菜单
第六 SPSS结果窗口用法,结果浏览窗口,掌握WORD等软件中使用输出结果,进行图片编辑, SPSS统计绘图功能, 常用统计图 ,因素分析
第七 SPSS Clementine软件功能演练,熟悉SPSS Clementine软件功能,了解SPSS Clementine 软件的各选项面板和操作方法。
第八 SPSS Clementine 数据可视化,熟悉SPSS Clementine 绘图,了解SPSSClementine 图形选项面板各节点的使用方法;熟练掌握SPSS Clementine 数据可视化流程。
第九 决策树C5.0 建模(结合案例),熟悉SPSS Clementine 软件建模方法和技术,掌握SPSS Clementine分布图、散点图、网络图的创建方法,掌握决策树C5.0 建模方法。
第十 关联规则挖掘(超市购物篮分析),熟悉C5.0 规则归纳、掌握购物篮分析的方法。
第十一 欺诈屏蔽/异常检测/神经网络,熟悉各种聚类分析方法;了解
神经网络分析方法与过程;掌握异常检测的方法。
第十二 分类和回归树节点(C&RT),掌握C&RT分类算法,掌握决策树的建立和修剪,了解C&RT分类算法在管理决策中的应用。
综合实验:熟悉Clementine软件从数据导入到结果输出的全过程。应用各种数据挖掘算法解决实际问题