机器学习——决策树保险案例
数据分析流程
1、业务理解(目标,解决什么问题,能不能转换为机器学习问题)
2、需要什么数据,数据的获取(多渠道,准确,覆盖率高)
3、数据的预处理(数据的清洗,探索性分析,特征提取转换,无量纲化,编码,特征选择,降维)
4、建模,模型优化
5、模型测试
6、模型解释、应用
不平衡数据处理
1、数据角度:只能处理训练集,不能对测试集处理
上采样:把少的变多
下采样:把多的变少
2、算法角度
数据探索性分析:产出各种图、表
1、研究各个变量和标签的关系
2、挖掘、发现新的特征
变量编码
1.序号编码:0,1,2
2.哑编码:编码后会接降维PCA
降维作用
1、缓解维度灾难
2、降低过拟合风险
3、便于可视化