举个例子,在资本资产定价模型(CAPM)的实证检验中,需要对海量的股票数据及近十万个回归方程进行拟合,提取β系数形成序列。您会发现,R只需要短短一两句“编程”在短时间内就能完成类似的工作。而这时SPSS、Eviews会“Mission Impossible”,SAS和Stata会有繁琐的编程才能解决这个问题,而且您会发现Stata会让您坐在电脑边长久地等待结果。不止是这点,事实上,在许多前沿和现代统计计量分析中,R常常能快速简便的完成SAS和Stata难以完成的任务。
课程简介
该基础课程在R入门概述之后,紧密的围绕R语言7个方面非常重要的基础能力进行展开。
R经常需要读取数据文件,数据处理或整理也是任何统计分析进行之前要做的工作,常常非常耗时耗力。如果数据处理好了,统计软件的分析工作常常可以在数秒内完成。
引入数组、矩阵和编程后,R语言的数据处理能力将变得无比强大,几乎可以在很短的时间内,完成任何高难度的数据整理工作,将规范整洁的数据送进软件去分析。平日在Excel表中整理数据时不断需要的复制粘贴、排序、vlookup、index、甚至VB给您带来的烦恼一扫而光。
和其它统计软件相比,R语言可以说是拥有最强大的作图功能,画出的图非常漂亮,一图胜千言,掌握好R的作图是一项最重要的基本功。对于统计分析来说,描述性和探索性统计分析、参数估计、假设检验、回归分析都是必须掌握的内容,而用R语言实现这些功能有独特的简洁和优势,所以放在本课程的基础部分介绍。
有的学员会问,短短的三天,我能学会这些内容吗?
答:统计公式是复杂的,但统计思想是简单的(大道至简),统计软件的操作也是简单的(熟能生巧),能解决实际问题是关键。汽车的原理是复杂的,但能开着汽车达到目的地就行,以后有需要再学习汽车的高深原理和技术也不迟。在解决统计问题的迫切需求满足中,Gino老师将带着您一步步不知不觉地掌握R的使用,下次遇到类似的问题您就知道如何做了,象探寻宝藏一样打开统计计量的大门,这是本课程能够达到的效果。
举个例子,有的同学在分析中小企业贷款的难易程度(贷到与否)时很容易想到用Logistic回归模型去解决(事实上很多文献都会用Logistic回归模型去实证分析),但进一步查阅文献会发现有一个Heckman selection model也可以去分析这个问题,而且更为强大和前沿。这时候,您就会用Gino老师教您的,使用R调取相应的丰富资源(Gino老师教的方法),然后快速的学习其思想方法并使用R进行演练(Gino老师教的统计思想会帮助您),然后用在自己的文章中实证分析去发表。这样您论文的统计分析是站在R这个巨人的肩膀上,思想和方法实现上都会更加专业和前沿些。
课程大纲
专题名称
授课内容
第1讲(2小时)
初识R语言
R语言简介(下载、安装、编辑器和包)
数字、字符和向量
简单数据分析示例
帮助的获取和引用程序包
第2讲(1小时)
读、写数据文件
从Excel表中载入数据
读取纯文本文件数据
读取其它统计软件中的数据
访问数据库
写数据文件
第3讲(3小时)
数据处理方法——数组、矩阵和数据框
生成数组或矩阵
下标运算
数组和矩阵的运算应用(含函数应用)
列表与数据框的编辑
第4讲(3小时)
数据处理方法——R语言的循环与函数
构造循环解决实际问题
factor、tapply、summary等重要函数应用
零和空的使用技巧
控制流(含if、分支、中止、循环等语句使用技巧)
编写自己的函数(含多个参数、稳健、递归等函数)
第5讲(3小时)
数据的描述性和探索性分析
描述统计量(位置、分散程度及形状等)
数据分布的描述
正态性检验与分布拟合检验
其它重要的探索性数据分析(比如展示与比较分布、识别变量间依存关系等)