全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
482 1
2022-11-01

1.明确需求(因变量Y)

2.数据清洗(重复值,缺失值,异常值,数据编码)

重复值针对行,可能是因为数据来源于多个系统

缺失值:1.删除所在行

2.填补(所在列为连续型数据用均值填补;所在列为分类型数据用分数填补或者直接将缺失值单独做一类)

异常值:错误值 数据治理SQL

离群值 学术 清洗阶段处理离群值(小样本)

业界 残差的离群值(大样本)

数据编码:将一些不方便提取信息的东西编码变成易提取的数字

3.变量筛选(凭借业务知识去筛选,相关分析(相关系数,散点图)逐步回归(向前法))变量选择以本人意愿为准

变量变换 (非线性,PCA,卷积(图)/词模型(文本))

4.分割 测试集 训练集(预测) Y 连续型:直接切分

Y 分类型:样本不平衡

5.回归(F检验,t检验,adjusted R^20

6.模型调优(线性性,序列相关性,共线性,内生性,同方差,正态性)

7.继续优化(季节变量,高次项,交互项,哑变量...)

8.模型测试(交叉验证,测试集)



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-11-1 13:18:35
点个赞加点人气
感谢分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群