全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件
18085 71
2015-07-07
软件包生态系统与图形其强项,但安全水平与内存管理则属于弱势

      R编程语言在数字分析与机器学习领域已经成为一款重要的工具。随着机器逐步成为愈发核心的数据生成器,该语言的人气也必然会一路攀升。不过R语言当然也拥有着自己的优势与缺点,开发人员只有加以了解后才能充分发挥它的强大能力。

      正如Tiobe、PyPL以及Redmonk等编程语言人气排名所指出,R语言所受到的关注程度正在快速提升。作为一款诞生于上世纪九十年代的语言,R已经成为S统计编程语言的一类实现方式。已经拥有十八年R编程经验的高校教授Roger Peng指出,“R语言已经成为统计领域人气的语言选项”

       “我之所以喜爱R语言,是因为它易于从计算机科学角度出发实现编程,”Peng表示。而R语言随时间推移正呈现出愈发迅猛的发展态势,并成为能够将不同数据集、工具乃至软件包结合在一起的胶水型语言,Peng解释道。

      “R语言是创建可重复性及高质量分析的途径。它拥有数据处理所必需的一切灵活性及强大要素,”数据科学家Matt Adams指出。“我用R语言编写的大部分程序实际上都是在将各类脚本整理到项目当中。”


R语言拥有强大的软件包生态系统与图表优势

      R语言的优势主要体现在其软件包生态系统上。“庞大的软件包生态系统无疑是R语言最为突出的优势之一——如果某项统计技术已经存在,那么几乎必然存在着一款R软件包与之对应,”Adams指出。

       “其中内置有大量专门面向统计人员的实用功能,”Peng表示。R语言具备可扩展能力且拥有丰富的功能选项,帮助开发人员构建自己的工具及方法,从而顺利实现数据分析,他进一步解释称。“随着时间的推移,越来越多来自其它领域的用户也被吸引到了R身边来,”其中包括生物科学乃至人文学科等。

       “人们能够在无需申请权限的前提下对其进行扩展。”事实上,Peng回忆称多年之前R的使用方式就已经给相关工作带来了巨大便利。“当R语言刚刚诞生之时,它的优势就是以自由软件的姿态出现。其源代码以及所有一切都可供我们直接查看。”

       Adams也表示,R语言在图形及图表方面的一切能够都是“无与伦比”的。其dplyr与ggplot2软件包分别用于进行数据处理与绘图,且“能够非常直观地提升我的生活质量,”他感叹道。

       在机器学习方面,R语言的优势则体现在与学术界的强大联动效应,Adams指出。“在这一领域的任何新型研究成果可能都会马上以R软件包的形式体现出来。因此从这个角度看,R语言始终站在技术发展的尖端位置,”他表示。“这种接入软件包还能够提供良好的途径,帮助我们利用相对统一的API在R语言环境下实现机器学习研究。”Peng进一步补充称,目前已经有众多主流机器学习算法以R语言作为实现手段


R的短板在于安全性与内存管理

       说了这么多优势,R语言当然也存在着一定不足。“内存管理、速度与效率可能是R语言面临的几大最为严峻的挑战,”Adams指出。“在这方面,人们仍然需要努力推动——而且也确实正在推动——其进展与完善。此外,从其它语言转投R怀抱的开发人员也会发现后者在某些设定上确实有些古怪。”

       R语言的基本原理来自上世纪六十年代出现的各类编程语言,Peng解释道。“从这个意义上讲,R语言在设计思路上属于一项古老的技术成果。”这种语言的设计局限有时候会令大规模数据集处理工作遇到难题,他强调称。因为数据必须被保存在物理内存当中——但随着计算机内存容量的不断提升,这个问题已经在很大程度上得到了解决,Peng指出。

      安全等相关功能并没有被内置在R语言当中,Peng指出。此外,R语言无法被嵌入到网络浏览器当中,Peng表示。“我们不能利用它开发Web类或者互联网类应用程序。”再有,我们基本上没办法利用R语言当作后端服务器执行计算任务,因为它在网络层面缺乏安全性保障,他表示。不过Amazon Web Services云平台上的虚拟容器等技术方案的出现已经在很大程度上解决了此类安全隐患,Peng补充道。

       长久以来,R语言当中始终缺少充足的交互元素,他表示。但以JavaScript为代表的各类编程语言介入其中并填补了这项空白,Peng指出。虽然我们仍然需要利用R语言处理分析任务,但最终结果的具体显示方式则可以由JavaScript等其它语言来完成,他总结道。


R语言并不单纯面向高端程序员

       不过Adams与Peng都会R视为一种易于接受的语言。“我本人并没有计算机科学教育背景,而且从来没想过要当一名程序员。将编程基础知识纳入技能储备当然很不错,但这并不是上手R语言的必要前提,”Adams指出。

       “我甚至并不认为R语言只适用于程序员。它非常适合那些面向数据并试图解决相关问题的用户——无论他们的实际编程能力如何,”他强调称。

                                                                                                                (资料来源于Linux社区)

2021年7月24-28日机器学习及R应用集中短训现场班

授课方式:思想原理 + 数学精髓 + R经典案例


讲师介绍:

本课程由山东大学经济学院陈强教授亲授。陈强教授获得北京大学经济学学士、硕士,美国Northern Illinois University数学硕士、经济学博士,现为数量经济学博士生导师,在统计学、计量经济学及机器学习领域具有深厚的功底,2010年入选教育部新世纪优秀人才支持计划。陈强老师著有畅销研究生教材《高级计量经济学及Stata应用》(第2版,高教社,2014),并特别擅长深入浅出、直指人心地介绍数据分析原理,深受广大学生们的喜爱,其现场班常常人满为患、好评如潮。


开课信息:

时间:2021年7月24-28日(五天)

地点:北京市海淀区

费用:5200元/ 4500元(本科及硕士在读优惠价);食宿自理

安排:上午9:00-12:00;下午2:00-5:00;答疑

报名:http://www.peixun.net/main.php?mod=buy&cid=1436


培训目的和特色:

机器学习早期为人工智能的分支,后来也有不少统计学家加入,最近一、二十年因为其预测精度迅速提高而走红,并在业界有着广泛的应用。可以预见,在未来三十年,几乎所有行业都会因机器学习的深刻冲击而改变。MIT名誉校长Eric Grimson曾预言,机器学习会成为像Word一样的工具。而谁先掌握此工具,则可占得先机,成为时代的弄潮儿(至少不会落伍)。


基于机器学习的通用性,本次“机器学习及R应用”五天现场班将面向所有行业与学科的人士、老师与学生(包含经管社科、医学卫生等领域)。


本课程的最大特色在于“一站式服务”,从机器学习的原理、数学推导,到R语言命令与经典案例,无不精心设计、丝丝入扣,理论联系实操,让学员们迅速理解机器学习的精髓,并掌握最为流行的数据科学软件R语言操作。


陈强老师将从零开始,介绍R语言的精华,让你迅速上手!

Why R?
√ R是统计学家发明的专门用于统计计算的语言
√ R是统计学家的母语
√ R中的统计“包”(package)最多,且增长迅速
√ 统计学顶级期刊的新发表论文一般带有相应的R包
√ R是免费开源的,在学界与业界均有很多用户

培训内容目录:

1机器学习引论

(1) 什么是机器学习

(2) 机器学习的分类与术语

(3) 案例:垃圾邮件过滤;手写体数字识别;图像识别;自动驾驶


2R语言快速入门

(1) Why R?

(2) 安装R与RStudio

(3) R的对象(vector, matrix, data frame,list)

(4) 面向对象的函数式语言

(5) R语言画图


3数学回顾

(1) 梯度向量
(2) 方向导数

(3) 梯度下降

(4) 向量微分

(5) 最优化


4线性回归

(1) OLS

(2) 过拟合与泛化能力

(3) 偏差与方差的权衡

(4) 交叉验证

(5) R案例:多项式回归的过拟合;波士顿房价


5逻辑 回归

(1) Logit

(2) 几率比

(3) 灵敏度与特异度

(4) ROC与AUC

(5) 科恩的kappa

(6) R案例:泰坦尼克号旅客的存活


6多项逻辑 回归

(1) 多项Logit

(2) R案例:识别玻璃类别


7判别分析

(1) 线性判别分析(LinearDiscriminant Analysis)

(2) 二次判别分析(QuadraticDiscriminant Analysis)

(3) 费雪判别分析(FisherDiscriminant Analysis)

(4) R案例:鸢尾花品种的归类


8朴素贝叶斯

(1) 朴素贝叶斯(Naive Bayes)

(2) 拉普拉斯修正(LaplacianCorrection)

(3) R案例:垃圾邮件的识别


9惩罚回归

(1) 高维回归的挑战

(2) 岭回归(Ridge Regression)

(3) 套索估计(Lasso)

(4) 弹性网估计(Elastic Net)

(5) R案例:前列腺癌的影响因素


10K近邻法

(1) 回归问题的K近邻法

(2) 分类问题的K近邻法

(3) R案例:摩托车撞击实验数据;模拟混合数据;威斯康辛乳腺癌的诊断


11决策树

(1) 分类树(Classification Tree)

(2) 分裂准则(错分率、基尼指数、信息熵)

(3) 成本复杂性修枝

(4) 回归树(Regression Tree)

(5) R案例:波士顿房价;葡萄牙银行市场营销


12随机森林

(1) 集成学习(Ensemble Learning)

(2) 装袋法(Bagging)

(3) 随机森林(Random Forest)

(4) 变量重要性(Variable Importance)

(5) 偏依赖图(Partial Dependence Plot)

(6) R案例:波士顿房价;声呐信号的分类


13提升法

(1) 自适应提升法 (AdaBoost)

(2) AdaBoost的统计解释

(3) 梯度提升法 (Gradient Boosting Machine)

(4) XGBoost

(5) R案例:波士顿房价;过滤垃圾邮件;识别玻璃类别


14支持向量机

(1) 最大间隔分类器(MaximalMargin Classifier)

(2) 软间隔分类器(Soft MarginClassifier)

(3) 支持向量机(Support Vector Machine)

(4) 核技巧(Kernel Trick)

(5) 支持向量回归(SupportVector Regression)

(6) R案例:模拟数据;过滤垃圾邮件;识别手写数字;波士顿房价


15人工神经网络

(1) 人工神经网络的思想

(2) 感知机(Perceptron)

(3)前馈神经网络(Feedforward Neural Network)

(4) 激活函数(Activation Function)

(5) 反向传播算法(Back-propagation Algorithm)

(6) 随机梯度下降(Stochastic Gradient Descent)

(7) 神经网络的过拟合与正则化

(8) 卷积神经网络(Convolution Neural Network)

(9) 深度学习的发展

(10) R案例:波士顿房价;声呐信号的分类;鸢尾花品种的分类


16非监督学习之主成分分析

(1) 总体中的主成分分析

(2) 样本中的主成分分析

(3) 方差分解与降维

(4) 主成分回归(PrincipalComponent Regression)

(5) R案例:左右耳听力;香港回归的经济效应


17非监督学习之聚类分析

(1) K-均值聚类(K-meansClustering)

(2) 分层聚类(Hierarchical Clustering)

(3) 树状图

(4) 基于相关系数的距离

(5) R案例:模拟数据;鸢尾花品种的归类


18数据科学的R语言

(1) 何为数据科学

(2) 管道算子(Pipe Operator)

(3) R包tidyverse(输入数据、数据清理、数据变换)

(4) R包ggplot2(高阶画图)

(5) R包caret(机器学习的统一接口)

(6) R案例:Rtidyverse的自带案例;威斯康辛乳腺癌的诊断


第19讲(Bonus Lecture)  机器学习在经管社科的应用

精读几篇在经管社科顶刊发表的经典机器学习论文


不难看出,本次课程可谓干货满满、奇货可居。更难得可贵的是,主讲老师陈强教授具有丰富的教学经验、激情与魅力,是广大计量学子心目中真正的“计量男神”,尤其擅长化繁为简、直指人心,让学员们迅速上手新知识与技能。


跟着陈强老师,五天入门机器学习,登堂入室,立竿见影,赶上时代的步伐!


优惠:

现场班老学员9折优惠;
同一单位三人以上同时报名9折优惠;

同一单位六人以上同时报名8折优惠;

以上优惠不叠加。


报名流程:
1:点击“http://www.peixun.net/main.php?mod=buy&cid=1436
”,网上填写信息提交;
2:给予反馈,确认报名信息;
3:网上订单缴费(需要刷卡或对公转账的请报名后与我们联系);
4:开课前一周发送课程电子版讲义,软件准备及交通住宿指南。

联系方式:

尹老师

电话: 010-53352991

QQ:  42884447

邮箱: yinna@pinggu.org

微信:yinyinan888

陈强老师Python机器学习2021年暑期班:2021年8月12-16日(五天)同步热招,详情请咨询尹老师↑

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-7-7 07:05:47
欢迎大家报名参加
Now or Never
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-7-7 07:34:21
还是自己学吧
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-7-7 08:29:50
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-7-7 08:31:15
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-7-7 08:32:25
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群