本书基于通用的Excel工具,加上必知必会的数据分析概念,以小说般通俗易懂的方式讲解。本节介绍数据处理.
1、 何为数据处理
1) “三心二意”处理数据:信心、细心(1%的错误=100%的失败)、平常心、诚意、合意
2) 数据处理的内容
Ⅰ数据清洗:将多余重复的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或删除。
Ⅱ数据加工:对数据字段进行信息提取、计算、分组、转换等加工,变成我们想要的数据表。
3) 数据处理就是根据数据分析的目的,将收集到的数据,用适当的处理方法进行整理加工,形成适合数据分析的要求样式,这是数据分析前必不可少的阶段。
2、 数据清洗:清除掉不必要的重复数据、填充缺失的数据、检测逻辑错误的数据。
1) 重复数据的处理
Ⅰ函数法:COUNTIF函数
Ⅱ高级筛选法
Ⅲ条件格式法
Ⅳ数据透视表法
Ⅴ删除重复数据:通过菜单操作删除重复项;通过排序删除重复项;通过筛选删除重复项
2) 缺失数据处理
Ⅰ缺失值是指数据集中某个或某些属性的值是不完全的。
Ⅱ缺失值产生的原因
A. 机械原因:由于数据收集或保存失败造成的数据缺失(数据存储的失败、存储器损坏、机械故障导致某段事件数据未能收集等)
B. 人为原因:由于人的主观失误、历史局限或有意隐瞒造成的数据缺失。
Ⅲ定位输入
A. 处理缺失值的四种方法:用一个样本统计量的值代替缺失值(使用该变量的样本平均值代理缺失值);用一个统计模型计算出来的值去代替缺失值(回归模型、判别模型等);将有缺失值的记录删除,可能会导致样本减少;将有缺失值的记录保留,仅在相应的分析中做必要的排除。
B. “Ctrl+Enter”快捷键
Ⅳ查找替换
3) 检查数据逻辑错误
Ⅰ利用IF函数检查错误IF函数的三个组成部分:需要判断的表达式、表达式为真时的显示值、表达式为假时的显示值
Ⅱ利用条件格式编辑错误
3、 数据加工
1) 数据抽取:保留原数据表中某些字段的部分信息,组合成一个新字段。
Ⅰ字段分列:截取某一字段的部分信息(菜单法、函数法)
Ⅱ字段合并:将某几个字段合并为一个新字段
Ⅲ字段匹配:将原数据表没有但其他数据表中有的字段,有效的匹配过来
2) 数据计算:
Ⅰ简单计算:字段通过加减乘除等简单算术运算就能计算出来。
Ⅱ函数计算:复杂计算,是指运用到函数的计算。
A. 平均值与总和
B. 日期的加减法
C. 用函数DATEDIF计算工龄
3) 数据分组:主要用VLOOKUP函数实现
4) 数据转换
Ⅰ数据表的行列互换
Ⅱ多选题集中录入方式之间的转换
4、 数据抽样
1) 普查:对总体中的对象一一进行观察、访问与记录,确定资料。
2) 抽样调查:从调查对象总体中按照随机原则选取一部分对象作为样本进行调查分析,以此推论总体状况的一种调查方式。