全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
530 1
2022-11-02
  • 1明确需求

  • 2采集数据

  • 3数据清洗: a.重复值的处理 b.缺失值的处理 c.异常值的处理 d.数据编码的处理

    其中缺失值的处理可以用均值或众数等描述数据集中趋势的进行填补,异常值中的错误值直接手动删除,离群值的 处理要具体看业务(通常通过画箱线图,或者3西格玛法则判断),数据编码的处理,对于男女这种二分类变量可以用 0和1转化,最好的是在此基础上加上交叉列(改斜率),多分类变量如学历这种,可以采用独热编码或哑变量转换,其 中的某列得删除,避免和线性回归模型中的常量在矩阵化时有相关性

  • 4变量的筛选:查看X与Y的相关系数,查看散点图

  • 5分割测试集训练集(做预测)

  • 6回归建模(F检验,T检验,调整R^2)

  • 7模型调优

  • 8模型精修(交叉项,高次项,季节趋势)

  • 9逐步回归

  • 10模型测试





二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-11-2 15:53:29
点个赞加点人气
感谢分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群