全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
6866 18
2017-11-21
随着大数据时代的到来,数据分析在日常工作和生活中的重要性日益凸显,我们迫切需要的倒不是IT行业所说的大数据,而是在利用好 现有数据的条件下,能够掌握统计分析利器进行敏捷深刻的研究思考。当谈到用数据解决问题时,我们经常用这样的语言去诠释:“如果你不能量化它,你就不能理解他,如果不理解就不能控制它,不能控制也就不能改变它”。数据无处不在,信息时代的最主要特征就是“数据处理”,数据分析正以我们从未想象的方式影响着日常生活。在知识经济与信息技术时代,每个人都面临着如何有效的吸收、理解和利用信息的挑战。那些能够有效利用工具从数据中提炼信息、发现知识的人,最终往往成为各行各业的强者。对于一些需要不断提升的学者来说,他们已经不满足于现状,迫切需要增强在数据分析方面的专业性,现经管之家主办数据分析相关培训,助您快速入门数据分析行业:
(如试听视频无法观看请点击观看链接:http://pan.baidu.com/s/1cuG9bg

一、基础部分


(一)、Excel数据分析实战——教您轻松玩转Excel


Excel培训相关(课程介及大纲见回复)
时间:2018年1月8日(五天)
费用:现场:2000元 (400元/天,赠送录制视频)
           远程:1600元(现场班八折)
1、学习方式:现场学习+同步现场直播学习+在线答疑 +录播学习
2、课程时间:上午9:00-12:00;下午1:30-4:30;答疑4:30-5:00




(二)、My SQL数据库从基础带进阶


My SQL培训相关(课程介及大纲见回复)
时间:2018年1月15日(五天)
费用:现场:2000元 (400元/天,赠送录制视频)
          远程:1600元(现场班八折)
1、学习方式:现场学习+同步现场直播学习+在线答疑 +录播学习
2、课程时间:上午9:00-12:00;下午1:30-4:30;答疑4:30-5:00




(三)、妙趣恒生的统计学奠定数据分析基础


统计学培训相关(课程介及大纲见回复)
时间:2018年1月22日(四天)
费用:现场:2400元 (600元/天,赠送录制视频)
          远程:1900元(现场班八折)
1、学习方式:现场学习+同步现场直播学习+在线答疑 +录播学习
2、课程时间:上午9:00-12:00;下午1:30-4:30;答疑4:30-5:00




(四)、玩转SPSS数据分析进军咨询行业


SPSS培训相关(课程介及大纲见回复)
时间:2018年1月29日(五天)
费用:  现场:3000元 (600元/天,赠送录制视频)
          远程:2400元(现场班八折)
1、学习方式:现场学习+同步现场直播学习+在线答疑 +录播学习
2、课程时间:上午9:00-12:00;下午1:30-4:30;答疑4:30-5:00




二、进阶部分


(一)、用R做数据分析及挖掘提升职场竞争力


R语言培训相关(课程介及大纲见回复)
时间:2017年12月18日-2018年1月9日(十六天)
费用: 现场:9600元 (600元/天,赠送录制视频)
           远程:7600元(现场班八折)
1、学习方式:现场学习+同步现场直播学习+在线答疑 +录播学习
2、课程时间:上午9:00-12:00;下午1:30-4:30;答疑4:30-5:00




(二)、数据分析综合案列,丰富工作经验


综合案列培训相关(课程介及大纲见回复)
时间:2018年1月10-18日(七天)
费用: 现场:7000元 (1000元/天,赠送录制视频)
           远程:5600元(现场班八折)
1、学习方式:现场学习+同步现场直播学习+在线答疑 +录播学习
2、课程时间:上午9:00-12:00;下午1:30-4:30;答疑4:30-5:00




(三)、怎么用最短时间高效踏实地学习 Python


Python培训相关(课程介及大纲见回复)
时间:2018年1月22-2月9日(十四天)
费用:现场:8400元 (600元/天,赠送录制视频)
           远程:6700元(现场班八折)
1、学习方式:现场学习+同步现场直播学习+在线答疑 +录播学习
2、课程时间:上午9:00-12:00;下午1:30-4:30;答疑4:30-5:00



三、报名福利(优惠

1、现场班老学员可以享受9折优惠;

2、同一机构3人以上报名,9折优惠;

3、同一机构6人以上报名,8折优惠;

4、同时报名参加基础部分课程2个打九折,3-4个打八折

5、同时报名参加进阶部分课程2个打九折,3个打八折

6、同时报名参加基础部分和进阶部分各1个课程打九折,一个以上打八折

7、赠送课程视频;

8、专业老师在线答疑;

9、精致课程练习题供学员课后操作更易于学员理解与掌握所受知识,提高实战能力;

10、报名成功后发送老师课程讲义供学员提前预习;

11、免费参加CDA数据分析研究院俱乐部活动。

12、赠送经管之家(原人大经济论坛)论坛币1000

(前六项优惠不叠加)


四、CDA师资团队介绍(少部分老师)

CDA数据分析讲师马竹青老师

二级教授,北京市高校教学名师,获取过北京市教育教学成果二等奖、北京市优秀教师、北京市优秀教学团队领队人。

1978-1981年国防科技大学攻读本科;

1983-1986电子科技大学攻读硕士研究生

1992-1993年期间国家教委派出,丹麦哥本哈根大学访问学者;

1998-1999年期间受国家教委派出,美国加州州立大学做访问学者;

2013-2014年期间所在学校派出,伦敦大学玛丽女王学院访问学者。

       从教近三十年,开设过十门计算机相关课程,不断地为学生辛勤耕耘,多次被评为“我爱我师”、学校优秀教师、师德先进个人。专著译著7部,论文数十篇,研究方向数据分析、数据库应用和数据模型实施;近期投入Power BI for Excel相关教学和研究,颇有建树、兴致和根基。


CDA数据分析讲师李奇老师

       经管之家签约讲师/中国电子表格应用大会主席IBM中国担任销售管理团队数据分析项目组长及德勤北京所的数据分析高级咨询顾问。专精于企业数据分析、制定商业智能业务解决方案、软件开发及Excel培训等


CDA数据分析讲师张琼老师

       北京易然教育科技有限公司 , 讲师/课程研发教研室主任,Web前端专业课程讲解,产品交互设计,UI课程体系课件研发,课程书籍编写,分校教师培训,项目实战辅导。专业技术WEB前端HTML5,CSS3,JavaScript,AJAX,JSON,Bootstrap,产品原型设Axure,后台开发PHP技术,数据库MySQL。


CDA数据分析讲师徐东老师

       上师大数学系讲师,计算数学专业博士学位。

       1996年9月~2000年7月,上海大学数学系,本科。

       2000年9月~2002年7月,上海大学数学系,计算数学专业硕士研究生。

       2002年9月~2005年7月,上海大学数学系,计算数学专业博士研究生。

       2005年12月~至今,上海师范大学数学系讲师,主要承担《C++程序设计》、《SAS与数据挖掘》和《高等数学》等课程的教学任务。  


CDA数据分析讲师Michael Liu老师

       中国精算师,北美准精算师,金融数据分析师,中级经济师,研究生毕业于中央财经大学,拥有期货、证券、银行类资格证书以及广泛的金融保险行业从业经验,同经管之家相识多年,擅长于数据分析,有长期的SAS、SPSS、EXCEL实战经验和授课经历,为人和善,始终相信能帮助和影响他人变得更好才是人生的意义所在。


CDA数据分析讲师熊巍老师  

       统计学专业博士,加州大学伯克利分校统计学院高级访问学者,对外经济贸易大学大数据与风险管理中心成员、中国人民大学应用统计研究中心成员、具有丰富的统计学及数学教学经验,人大经济论坛讲师,研究方向为数据挖掘、机器学习、稳健高维降维、应用统计模型等,在国外SCI及国内核心外期刊上发表论文二十余篇并参与完成多项著作。目前致力于大数据、超高维数据在交叉学科的前沿领域研究,主持并参与了包括国家自然科学基金项目在内的多项国家级课题及北京市自然科学基金、社会哲学规划项目等重大省部级课题,其中在研的有自己主持的教育部人文科学项目“基因与环境的交互效应对复杂疾病的影响及稳健地识别分析与应用”、以及参与的“大数据的统计学基础理论与分析技术创新研究”、“大数据下Leverage重要性抽样的稳健改进”等大数据项目。在学校承担多项课程,精通各种软件,正在编写《实用数据挖掘讲义》及《商务应用统计案例》。


CDA数据分析讲师白云芬老师

       毕业与上海交通大学理学院,获得博士学位,主要研究领域包括概率论、数理统计、经济最优化、风险管理及衍生品定价等方面,有着多年的授课经验,发表了SCI及核心期刊论文多篇,多次指导学生参加全国数学建模竞赛并获得国家级奖及省级奖。


CDA数据分析讲师丁亚军老师

       CDA数据分析师金牌讲师/数据分析总监现任职于南京上度市场咨询有限公司,人大经济论坛数据处理中心数据分析顾问,SAS、SPSS 软件讲师、中国学习路径图国际中心技术顾问。曾参与2012 国家宏观经济预测、中国城镇居民家庭投资调查、泸州老窖目标管理与绩效考核、中国卫生状况调查、江苏广电 CRM 数据挖掘等大型数据处理项目。                                       


CDA数据分析讲师曹正凤老师

       CDA数据分析师金牌讲师/统计学专业博士,北京大数据协会理事,首发集团智慧交通大数据中心筹备组负责人,具有多年的JAVA程序设计和统计教学经验,目前致力于大数据分析前沿领域研究。研究方向为数据挖掘领域的前沿算法研究,包括随机森林算法、神经网络等内容,发表多篇论文。


CDA数据分析讲师郭照蕊老师

       上海师范大学商学院副教授,硕士生导师。2013年7月毕业于上海财经大学,获管理学(会计学)博士学位;同年进入上海师范大学商学院任教。

       2013年9月-2015年9月期间,在上海交通大学上海郭照蕊,高级金融学院从事金融工程博士后研究工作。在攻读博士之前,曾在广东海洋大学经济管理学院任教。

       近几年,先后在包括《管理世界》、《审计研究》、《Review of Pacific Basin Financial Markets and Policies》等在内的各类国内外学术期刊上发表论文十余篇,多篇论文被人大复印资料全文转载。

       2012年6月,获得2011年度潘序伦中青年会计、审计优秀论文奖;

       2013年1月,获得教育部首批研究生国家奖学金;

       2014年12月,获首届金融管理年会论文一等奖;

       2015年9月,获中国博士后制度建立30周年纪念活动暨全国博士后学术论坛优秀论文奖(两篇);

       2016年1月,获第二十二届中振科研基金优秀科研成果奖。


CDA数据分析讲师王小川老师
       同济大学管理学博士,现就职于国内某大型券商研究所,从事量化投资相关工作,并承担了部分高校统计课程教学任务。长期研究机器学习在统计学中的应用,精通MATLAB、Python、SAS等统计软件,热衷数据分析和数据挖掘工作,有着扎实的理论基础和丰富的实战经验。神经网络、数据挖掘、统计分析应用领域专家,国内最大的MATLAB论坛管理员,在硕士与博士期间,参与发表了SCI论文6篇,核心期刊论文5篇,获得同济大学奖学金,著有《MATLAB神经网络30个案例分析》一书。


五、报名流程及咨询
1. 网上提交报名信息
2. 给予反馈,确认报名信息
3. 交费
开户行:北京农商银行四季青支行万寿寺分理处
户名:北京国富如荷网络科技有限公司
卡号:0404 1001 0300 0003 092
支付宝:guofuruhe@126.com
户名:北京国富如荷网络科技有限公司
4. 邮递发票


咨询方式

龚加勇
电话:010-53605625
手机:17773656856(微信)

Q  Q: 1281241407

邮 箱:gongjiayong@pinggu.org


IMG_20171122_160317.png


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-11-22 09:51:35

Excel课程介绍及大纲

一、课程简介
       Excel是微软办公套装软件的一个重要的组成部分,它可以进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于管理、统计、财经、金融等众多领域。
       本课程主要是从其最基础的excel定位条件操作,到中级各种统计函数、文本函数、逻辑函数、查找引用函数等等,进而步入图表展现和透视表,以及函数、图表结合的动态展现,再到后面的Power BI自动分析你的所有数据。

二、课程大纲
第一章:Excel基础
第一节:Excel基本操作及基本数据处理
1、处理重复数据,处理不完整数据
2、处理格式错误数据,处理异常值
3、提取数据,数据转换
4、 数据标准化,加权平均

第二节: 函数基础
1、数学函数,文本函数
2、逻辑函数,查找定位函数
3、日期函数,统计函数
4、函数的嵌套使用

第三节: 基本图表
1、饼图,折线图
2、柱形图,条形图
3、散点图,气泡图
4、雷达图,面积图
5、组合图

第四节: 动态图表
1、控件基础
2、基本动态图表方法

第五节: 数据透视表
1、数据透视表基础,数据透视图基础
2、切片器,数据透视图表与切片器的组合应用
3、计算规则设定方法

第二章:Excel高级
第一节:案例-杜邦分析仪制作方法
1、杜邦分析仪业务背景介绍
2、 杜邦分析仪制作方法详解

第二节:Power Map
1、Power Map概述
2、Power Map使用方法介绍
3、Power Map应用案例

第三节:Power View
1、Power View概述
2、Power View使用方法介绍
3、Power View应用案例

第四节:Power Query
1、Power Query概述
2、Power Query数据导入
3、Power Query基本功能介绍
4、横纵向合并数据,M公式介绍

第五节:Power Pivot
1、Power Pivot概述
2、Power Pivot数据导入
3、Power Pivot基本功能介绍
4、Power Pivot搭建多维数据集
5、Power Pivot创建KPI
6、Power Pivot创建层次结构
7、Power Pivot使用案例

三、课程重点
       Excel数据处理技巧和高效方法,Excel数据收集和处理,Excel常用公式、函数、数组及数据分析、Excel可视化数据分析(排序、筛选、透视表等)、Excel图表化数据呈现、利用Power Pivot创建表关联、制作切片器、制作动态图标、制作地图、制作城市名的动态条形图、为”仪表盘”工作中各个部件布局、Powerquery数据导入、Power query数据处理、制作PowerView界面分析仪、调整仪表板中各部件布局及显示格式。

四、课程目标
1、熟练掌握Excel基本操作和基本数据处理,能熟练使用常用的Excel函数,能使用Excel画基本的图表以及动态图表,掌握Excel数据透视表。
2、在Excel高级的课程中,熟练使用power query和power pivot,了解power map和power View的原理和用法。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-11-22 10:05:50

My  SQL课程介绍及大纲


一、课程简介
       Sql是一种数据库专用的计算机语言,不管是Oracle、MS SQL、Access、Mysql或其他公司的数据库,也不管数据库建立在大型主机或个人计算机上,都可以使用SQL语言来访问和修改数据库的内容。
       Sql课程是从mysql数据库开始,熟悉一些基本的mysql的操作,进而学习数据库的增删改查,之后我们通过2个数据清洗的案例进行进阶,这2个公司最真实的案例在一次强化数据查询,理解数据清洗以及优化。

二、课程大纲
第一章:Mysql基础编程
第一节:数据库简介
1、Mysql与workbench的安装与配置
2、数据库管理系统(DBMS)介绍
3、数据库管理系统的主要功能
4、数据库管理系统的类型
5、Mysql简介

第二节:sql语言
1、Sql功能
2、数据定义语言(DDL)
3、数据操作语言(DML)(insert语句、update语句、delete语句)
4、数据查询语言(DQL)(查询排序、查询结果限定、条件运算符、字符串模式匹配、空值操作)

第三节:select查询语句
1、单表查询,使用集合函数查询
2、连接查询(左连接、右连接、内连接),子查询(where子查询、from子查询、exists子查询)
3、合并查询结果(union合并查询),使用正则表达式查询
4、时间函数查询,case when

第四节:存储过程
1、使用存储过程的意义
2、Delimiter语句
3、调用存储过程
4、局部变量、用户变量、应用IN参数、应用OUT参数
5、流程控制(if判断语句、case判断语句、while循环语句、)
6、执行预处理语句



第二章:Mysql案例
第一节:大气质量分析仪案例
应用Mysql数据制作Power View界面分析仪

第二节:彩票数据分析测试

第三节:Mysql+Excel综合案例
餐饮业分析仪
业务背景介绍,Mysql数据处理加工,Power Pivot建模,Excel表格界面分析仪制作


三、课程重点
       数据库管理系统、Mysql与Workbench安装与配置、sql语法组成、sql功能、数据库的基本操作:Create table语句的使用Alter table语句的使用  表记录的insert、update、delete操作、重点掌握select语句、连接查询、子查询、where子查询、from子查询、exists子查询、union合并查询、日期时间函数、case..when语句。
存储过程的概念和作用、delimiter语句、调用存储过程、局部变量的概念和应用、用户变量、应用in、out参数、流程控制(if、case、while语句)、执行预处理语句、表关联。

四、课程目标
       Mysql课程中了解数据库运作的原理,了解数据库中的增删改,侧重select查询语句(单表查询,使用集合函数的查询,连接查询,子查询,合并查询结果等)
Mysql案例中掌握用Mysql数据制作Power View界面分析仪,了解彩票数据分析测试的基本流程和基本原理。



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-11-22 10:09:51

统计学课程介绍及大纲

一、课程简介
       统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,甚至预测研究对象未来的一门综合性科学。其中用到了大量的数学及其它学科的专业知识,它的使用范围几乎覆盖了社会科学和自然科学的各个领域。
       本课程从最基础的统计理论(描述性统计、区间估计、假设检验等),到基本的统计分析(T检验、方差分析等),最后到商业常用的模型(回归、因子分析、时间序列)。以深入浅出的方法,带大家逐步了解统计。

二、课程大纲
第一节:描述性统计
1、集中趋势
(1)众数
(2)中位数
(3)分位数
(4)平均数
2、离散测度
(1)、异众比率
(2)、四分位差
(3)、方差
(4)、标准差
(5)、离散系数
(6)、偏态
(7)、峰态

第二节:统计量及其抽样分布
1、统计量
(1)常用统计量
(2)次序统计量
(3)充分统计量
2、分布
(1)抽样分布
(2)渐进分布
(3)近似分布
(4)卡方分布
(5)t分布
(6)F分布
3、样本均值的分布与中心极限定理
4、样本比例的抽样分布
5、两个样本均值之差的抽样分布
6、关于样本方差的分布

第三节:参数估计
1、参数估计
(1)估计量与估计值
(2)点估计与区间估计
(3)评价估计量的标准
(4)点估计
2、一个总体参数的区间估计
3、两个总体参数的区间估计
4、估计量的求法
(1)矩估计法
(2)最大似然估计法
5、样本量的确定

第四节:假设检验
1、假设检验
(1)假设的表达式
(2)两类错误
(3)假设检验的流程
(4)p值
(5)单侧检验
2、单个样本t检验
3、配对样本的t检验、两独立样本t检验

第五节:分类数据分析
1、分类数据与卡方统计量
2、拟合优度检验
3、列联分析、独立性检验
4、列联分析相关测量
5、线性回归



三、课程重点
       集中趋势的度量、离散程度的度量、偏态与峰态的度量、统计量的概念、几个分布的概念、正态分布导出的几个概念(卡方分布、t分布、F分布)、样本均值的分布与中心极限定理、样本比例的抽样分布、两个样本均值之差的抽样分布、样本方差的分布、参数估计的一般问题(最大似然估计)、一个总体参数的区间估计、两个总体参数的区间估计、样本量的确定、假设检验(2类错误)、一个总体参数的检验、两个总体参数的检验、分类数据分析、主成分分析、线性回归、相关关系、回归分析的目的、最小二乘估计、拟合优度的度量、可决系数、回归系数的区间估计和假设检验、logistic回归的主要用途、logistic回归参数估计、logistic回归分析思路、logistic回归中的混杂因素、logistic回归中的交互作用、因子分析的概念和基本步骤、因子载荷矩阵求解的方法、因子旋转。

四、课程目标
1、统计理论中了解一些常用的统计术语,能运用数据分析常用的一些统计方法(相关分析,列联分析,主成分分析,因子分析等
2、深入浅出的讲课方式,了解并掌握最基本的统计理论(描述性统计、区间估计、假设检验等)


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-11-22 10:12:43

SPSS课程介绍及大纲


一、课程简介

       SPSS是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操作界面极为友好,输出结果美观漂亮。它将几乎所有的功能都以统一、规范的界面展现出来,使用Windows的窗口方式展示各种管理和分析数据方法的功能,对话框展示出各种功能选择项。
       Spss基础课程从最基础认识spss的各种界面(文件、编辑、查看等),到最核心的统计分析模块,统计分析模块是基于统计理论来讲的,这一块会系统的讲基本的统计分析,过度到基本的模型(T检验、方差分析、相关性、卡方分析等),然后再到常用的模型(回归、因子分析、主成分分析、对应分析、聚类分析等)。并且每一个分析模型都是基于实际的案例,这些案例模型包括(一般线性回归、logistic回归、主成分分析等)
       Spss高级进阶涵盖各个行业公司典型的案例、数据挖掘常用的算法(聚类分析、判别分析、RFM分析、对应分析、联合分析、时间序列分析等)
       整体课程采用总分总的形式,先总体概述,再分开不同的模块、细节讲解,再总结所学的内容,不断的强化,循环,让学员深入掌握所学的内容。

二、课程大纲
第一节:spss基本知识
1、spss数据分析全过程
(1)数据源访问
(2)数据管理
(3)预分析
(4)模型
(5)结果串讲
2、spss软件综合特征
(1)统计分析对比
(2)价格
(3)性能
(4)应用领域
(5)功能
(6)方法论
3、访问数据源
(1)访问excel
(2)文本
(3)统计软件格式
(4)访问各种数据库
(5)ODBC接口的加载
4、描述数据
(1)统计量与图形
(2)各种统计图形的优缺点
(3)散点图
(4)直方图
(5)箱图
(6)条形图



第二节:spss案例
1、员工绩效管理
(1)相关分析
(2)皮尔逊相关系数
(3)卡方检验
(4)t检验
(5)方差分析
(6)线性回归
(7)模型构建流程
(8)glm模型前提条件
(9)优缺点
(10)模型条件与调整
2、信用行为特征分类
(1)y的量化
(2)哑变量变换
(3)卡方分析
(4)模型构建流程
(5)logistics模型在评分卡制作中的应用
(6)预测分析模型与logistics的对比
3、降维在消费行为中的应用
(1)x自变量的筛选
(2)主成分分析的应用——问卷结构效度与消费者潜在行为
(3)主成分回归
(4)缺省值填补

三、课程重点
       SPSS数据的与分析(数据清理、数据合并、数据拆分、检验异常值、缺失值处理、个案排秩、描述统计分析功能、ROC曲线)、数据分析(假设检验、卡方分析、相关分析、回归分析、因子分析、聚类分析、对应分析、联合分析、时间序列分析、生存分析、bootstrap抽样)。

四、课程目标
1、学会基于统计学思想的商业分析技巧方法
2、掌握一门专业数据分析软件-SPSS
3、熟知最常用统计分析与建模方法
4、掌握基于个体的数据挖掘与业务优化方法


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-11-22 10:16:59

R语言课程介绍及大纲


一、课程简介
       R语言是一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。在高校以及统计分析领域非常受欢迎。
       R编程基础主要了解R语言的基本概念以及基本编程语句,编程基础主要侧重R包的管理,R的数据结构以及R基本的函数和语句和R可视化,R统计主要有R语言的统计应用(统计推断、线性回归、主成分分析),学员利用几个公司的实际例子来更好的理解R的统计应用。
       R数据挖掘基础理论与具体操作为主要内容,讲述数据挖掘的各主要步骤、算法和应用,并通过对实际案例的分析,帮助学生更加深入地理解常用的数据挖掘模型。本课程的要求学生能够使用R语言数据挖掘平台,通过对学生在获取数据、清理数据、分析数据和知识发现等不同环节的训练,帮助学生掌握在应用场景下独立使用数据挖掘理论与方法解决现实问题的能力。《R语言与数据挖掘》课程的研究对象主要是各种主流的数据挖掘模型,主要有7个方面的内容,分别是决策树模型、聚类模型、支持向量机、贝叶斯网络、关联分析、文本分析

二、课程大纲
第一章:R编程基础
第一节:R基本知识
1、准备
(1)介绍
(2)帮助
(3)如何提问
(4)安装
(5)设置工作路径
2、数据对象
(1)数据类型
(2)取子集
3、矩阵运算
4、读取写出数据(从各种文件,txt,json,xml,excel,mysql等)



第二节:R基本语句结构及循环
1、语句结构
(1)控制结构(顺序、条件、循环))
2、创建
(1)创建随机数
(2)常见分布
(3)创建函数
3、循环函数(常用循环函数lapply、tapply、split、mapply、apply等等)

第三节:R数据清洗
1、日期时间对象及处理
2、数据清洗
(1)数据总结
(2)创建新变量
3、数据清洗(规整数据(长型, reshape,plyr,dplyr包))

第四节:文本对象处理
1、文本对象处理
2、正则表达式

第五节:R画图
1、基本绘图,图像格式(pdf、png、jpeg)
2、ggplot2
3、目前好用的扩展,github,echarts,shiny,slidify

第六节:R统计分析
1、统计推断
2、线性回归
3、主成分分析

第二章:R数据挖掘
1、逻辑回归,聚类,关联规则,文本分析
2、决策树,神经网络,贝叶斯,SVM

三、课程重点
1、R的优点、R的对象、R读写数据、R子集、R去除缺失值、R向量运算构造(常见的基本运算函数、创建随机数、随机抽样)、R中的日期和时间、字符处理函数、分析性图标的基本原则、探索性图表、R绘图系统(基础绘图系统、Lattice绘图系统、ggplot2系统)、控制结构、函数创建和参数、循环函数、常见数据清理。
2、线性回归、最小二乘估计、评价线性回归的准确性、R2统计量、线性回归的共线性问题。
3、信用风险模型的业务理解、账龄分析、申请信用评级解释变量准备、初始信用违约预测之拒绝推断、KNN算法、决策树在变量选择的运用、变量筛选与数据清洗、连续变量分箱WOE转换、模型评估、生成评分卡、模型监测、分类模型建模流程:将所有的解释变量转化为连续变量。
4、分类变量的压缩、连续变量的压缩、水平变量编码转换、基于目标变量的转换-WOE、主成分分析、变量聚类。
5、层次聚类的思路、k-means聚类的思路和使用条件、预先处理变量、变量标准化、k-means聚类过程、轮廓系数、变量转换、用户画像的构建。
6、贝叶斯算法的优点、先验概率和后验概率、贝叶斯法则、连续变量的处理。
7、SVM原理、函数间隔与几何间隔、SVM线性问题、SVM非线性问题、核函数、松弛变量。
8、人工神经网络、感知器、多层感知器、BP神经网络原理。
9、决策树建模思路、Quinlan系列决策树建模原理、CART建模原理、模型修剪、模型评估、随机森林与组合算法、信息增益计算、ID3的缺点、比较多个变量的优先级、CART决策树原理、基尼系数、决策树建树原理、决策树方法总结、剪枝、CART的决策树修剪方法。
10、信用风险模型、分类变量的相关关系、逻辑回归、模型评估、因果关系建模与取数逻辑、估计方法、列联分析的原假设与备选假设、卡方检验、优势比、Logit回归与线性回归、Logit变换、logisitic回归模型评估、模型评估原则、样本内评估、评估指标汇总、ROC曲线、Lorenz曲线、累积提升度、K-S统计量、逻辑回归估计方法、极大似然估计。

四、课程目标
1、熟练掌握R语言的基本语法,常用函数的用法,能运用R语言的可视化、R数据清洗、R文本处理等功能处理一些简单的数据,最后能使用R处理一些常用的统计模型(统计推断,线性回归,主成分分析)。
2、R数据挖掘需要掌握逻辑回归,聚类,关联规则,文本分析,决策树和贝叶斯等模型,神经网络和SVM有所了解就可以。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群