全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 学道会
593 1
2019-12-03
2019/12/03
《增强型分析-AI驱动的数据分析、业务决策与案例实践》读书笔记
《No.2: p13-p29》第2章 大数据探索与预处理

1        大数据探索
1.1        数值类型:区间型数据、分类型数据、序数型数据
1.2        连续型数据探索:
1.2.1        缺失值、均值、最大值最小值、方差、标准差、中位数、众数、四分位数、四分位距、偏斜度、峰态
1.2.2        首要关注重点: 缺失值
1.2.3        偏斜度绝对值若大于1或接近1时,需进行Log转换才能使用。
1.3        分类型数据探索: 缺失值、类别个数、类别中的个体数量、众数
1.4        示例: 用加州大学欧文学院创建的Machine Leaning Repository数据集,Bank Marketing Data Set的市场营销数据来说明
1.5        双变量关系探查
1.5.1        连续型-连续型: 用《散点图》来探查其线性关系
1.5.2        分类型-分类型: 用《堆叠柱状图》或《卡方检验》,来探查两者关系
1.5.3        连续型-分类型: 用《ANOVA方差》进行分析
1.6        数据预处理: 包括数据清洗、数据集成、数据变换、数据归约。
1.6.1        数据清洗
1.6.1.1        缺失值处理
1.6.1.1.1        连续型变量: 采用均值来代替缺失值
1.6.1.1.2        序数型变量: 采用中位数来代替缺失值
1.6.1.1.3        分类型变量: 采用众数来代替缺失值
1.6.1.2        越界值处理
1.6.1.2.1        少数越界值会被当做离群值来处理
1.6.1.2.2        大量的越界值需要用"业务知识"来判断
1.6.1.2.3        处理方式
1.6.1.2.3.1        移除越界值
1.6.1.2.3.2        采用Z-SCORE转换数据
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2020-1-27 14:32:08
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群