2019/12/03
《增强型分析-AI驱动的
数据分析、业务决策与案例实践》读书笔记
《No.2: p13-p29》第2章 大数据探索与预处理
1 大数据探索
1.1 数值类型:区间型数据、分类型数据、序数型数据
1.2 连续型数据探索:
1.2.1 缺失值、均值、最大值最小值、方差、标准差、中位数、众数、四分位数、四分位距、偏斜度、峰态
1.2.2 首要关注重点: 缺失值
1.2.3 偏斜度绝对值若大于1或接近1时,需进行Log转换才能使用。
1.3 分类型数据探索: 缺失值、类别个数、类别中的个体数量、众数
1.4 示例: 用加州大学欧文学院创建的Machine Leaning Repository数据集,Bank Marketing Data Set的市场营销数据来说明
1.5 双变量关系探查
1.5.1 连续型-连续型: 用《散点图》来探查其线性关系
1.5.2 分类型-分类型: 用《堆叠柱状图》或《卡方检验》,来探查两者关系
1.5.3 连续型-分类型: 用《ANOVA方差》进行分析
1.6 数据预处理: 包括数据清洗、数据集成、数据变换、数据归约。
1.6.1 数据清洗
1.6.1.1 缺失值处理
1.6.1.1.1 连续型变量: 采用均值来代替缺失值
1.6.1.1.2 序数型变量: 采用中位数来代替缺失值
1.6.1.1.3 分类型变量: 采用众数来代替缺失值
1.6.1.2 越界值处理
1.6.1.2.1 少数越界值会被当做离群值来处理
1.6.1.2.2 大量的越界值需要用"业务知识"来判断
1.6.1.2.3 处理方式
1.6.1.2.3.1 移除越界值
1.6.1.2.3.2 采用Z-SCORE转换数据