全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
3008 8
2017-06-16

2017年6月9日,第八期CDA数据分析就业班学员毕业答辩,讲优秀学员作品分享出来。


数据描述:

数据为2009-2016年某商业银行中部分客户的基本交易情况,主要含交易信息、人口基本属性以及相关衍生变量,行方想根据既有信息,推出一款理财产品-'g基金',根据以上信息,想知道那些客户是他们的目标客户。


模型描述:

此数据缺失值极多,数据不平衡,并且变量过多易陷入虚拟变量陷阱。因此我组首先采用欠采样将响应变量控制在1:5;然后使用随机森林和WOE算法进行变量筛选;最后填补缺失值处理异常值。之后应用logistic回归在训练组得出模型,再用测试组检验模型。


型优势:

我组给出的模型AUC值适中,预测合理,模型比较稳健。同时,这是一个结构模型,可分析自变量的偏效应,更便于模型落地。


答辩视频:


答辩小组介绍:

组长:徐杨,组员赵晓龙,宋鹏飞,张仟,张亿。


PS想要获取「数据及PPT」,加入QQ群:171896680,下载链接见群公告


CDA数据分析就业班介绍:

CDA数据分析就业班是为解决当下企业招人难、学员就业难的问题所研发的精品课程。课程以数据分析理论与实践案例结合的方式讲授,内容覆盖了国内企业招聘数据分析师岗位所需的技能,学员经过三个月系统全面的脱产学习(统计学、Excel、SQL、SPSS、SAS、R、Python),达到企业用人标准,快速在大数据时代找准工作定位。


课程大纲:

第一阶段:Excel数据分析(5天)

第二阶段:数据分析理论基础(5天)

第三阶段:数据库管理(4天)

第四阶段:SPSS数据分析(10天)

第五阶段:数据挖掘实战案例(3天)

第六阶段:R语言数据分析(13天)

第七阶段:案例分析实战(5天)

第八阶段:SAS数据挖掘/python数据分析(15天)


学员对象:

(1) 各行业数据分析、数据挖掘从业者 ;

(2) 在校数学,经济,计算机,统计等专业教师和学生 ;

(3) 经济,医学生物研究院科研人员 ;

(4)数据分析,数据挖掘兴趣爱好者及转行人士。


最新开课信息:

十一期CDA数据分析就业班6月25日于北京开课(现场还有5个名额)

十二期CDA数据分析就业班7月9日于深圳开课(现场还有10个名额)

十三期CDA数据分析就业班7月23日于上海开课


立即报名


快点加入我们,一起玩转数据分析吧!

详情请咨询:

课程顾问-赵老师


13121318867(微信)



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-6-16 11:32:39
CDA数据分析就业班介绍:
CDA数据分析就业班是为解决当下企业招人难、学员就业难的问题所研发的精品课程。课程以数据分析理论与实践案例结合的方式讲授,内容覆盖了国内企业招聘数据分析师岗位所需的技能,学员经过三个月系统全面的脱产学习(统计学、Excel、SQL、SPSS、SAS、R、Python),达到企业用人标准,快速在大数据时代找准工作定位。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-6-16 11:32:52
课程大纲:
第一阶段:Excel数据分析(5天)
第二阶段:数据分析理论基础(5天)
第三阶段:数据库管理(4天)
第四阶段:SPSS数据分析(10天)
第五阶段:数据挖掘实战案例(3天)
第六阶段:R语言数据分析(13天)
第七阶段:案例分析实战(5天)
第八阶段:SAS数据挖掘/python数据分析(15天)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-6-16 11:33:10
学员对象:
(1) 各行业数据分析、数据挖掘从业者 ;
(2) 在校数学,经济,计算机,统计等专业教师和学生 ;
(3) 经济,医学生物研究院科研人员 ;
(4)数据分析,数据挖掘兴趣爱好者及转行人士。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-6-16 11:33:27
最新开课信息:
十一期CDA数据分析就业班6月25日于北京开课(现场还有5个名额)
十二期CDA数据分析就业班7月9日于深圳开课(现场还有10个名额)
十三期CDA数据分析就业班7月23日于上海开课

立即报名
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-6-16 11:34:08
数据描述:
数据为2009-2016年某商业银行中部分客户的基本交易情况,主要含交易信息、人口基本属性以及相关衍生变量,行方想根据既有信息,推出一款理财产品-'g基金',根据以上信息,想知道那些客户是他们的目标客户。

模型描述:
此数据缺失值极多,数据不平衡,并且变量过多易陷入虚拟变量陷阱。因此我组首先采用欠采样将响应变量控制在1:5;然后使用随机森林和WOE算法进行变量筛选;最后填补缺失值处理异常值。之后应用logistic回归在训练组得出模型,再用测试组检验模型。

模型优势:
我组给出的模型AUC值适中,预测合理,模型比较稳健。同时,这是一个结构模型,可分析自变量的偏效应,更便于模型落地。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群