#########量化投资以R语言为工具
##13章描述性统计
##统计分析包括描述统计(descriptive statistics)和推断统计(inferential statistics)
#数据类型,数据分成两类定性数据(qualitative data)和定量数据(quantitative data).前者是对事物性质的进行描述的数据,通常只具有有限个取值,往往用于描述类别。比如股票所属行业数据即为定性数据。定量数据是呈现事物数量特征的数据,是由不同数字组成的,数字取值是可以比较大小的,比如各支股票收益就数据即是定量数据,我们可以比较同一时间哪支股票的收益率较高,也可以比较同一支股票何时收益较高。
setwd("E:\\量化投资以R语言为工具\\正文部分数据与代码\\part 2\\013")
# setwd('~/R Quant/part 2/013')
###图表。若要直观了解样本数据的整体情况,可以对数据进行图像化处理,将其变为图表以方便分析者对数据进行整体判断。图表描述通常会使用的工具是频数分布表与图示法,如直方图、饼图、折线图、散点图等。下面介绍最常用的频数分布表和直方图
###直方图
returns <- read.csv("retdata.csv",header=T)
head(returns)
gsyh <- returns$gsyh
hist(gsyh)
###0附近的柱形最高。也就是说,数据都集中在0附近
###数据的位置
zglt<- returns$zglt
pfyh<- returns$pfyh
mean(zglt)
mean(pfyh)
# > mean(zglt)
# [1] 0.00181097
# > mean(pfyh)
# [1] 0.002264809
###中位数
median(zglt)
median(pfyh)
###求众数 先用table函数对数据进行统计,然后找出最大的一组
which.max(table(zglt))
which.max(table(pfyh))
##平均收益率
#pfyh高于zglt近25%仅从数据中心位置来说,我们可以认为浦发银行表现得更好。
##查看上下四分位数
quantile(zglt,probs=c(0.25,0.75))
quantile(pfyh,probs=c(0.25,0.75))
# > quantile(zglt,probs=c(0.25,0.75))
# 25% 75%
# -0.006525337 0.008766644
# > quantile(pfyh,probs=c(0.25,0.75))
# 25% 75%
# -0.005472016 0.009404664
###浦发银行的更大表现更好
##数据的离散度
##数据的位置仅是一个点,若要全面地反映数据分布的特征,我们还需要其他的指标。数据的离散度(variability),也称为数据的变异性,主要衡量样本数据相对于中心位置的偏离程度。把数据的位置同离散程度结合起来,就可以很好的刻画数据分布的特征。常用的离散度指标有极差、平均绝对偏差、方差和标准差等
##极差是最大值与最小值之差
##平均绝对偏差(mean absolute deviation),
##自定义求平均绝对偏差函数
mad<-function(x){
mean(abs(x-mean(x)))
}
##求极差
max(zglt)-min(zglt)
# [1] 0.1822852
mad(zglt)
# [1] 0.01188859
var(zglt)
sd(zglt)
# > var(zglt)
# [1] 0.0003140948
# > sd(zglt)
# [1] 0.01772272
max(pfyh)-min(pfyh)
mad(pfyh)
var(pfyh)
sd(pfyh)
# [1] 0.1841083
# > mad(pfyh)
# [1] 0.01186043
# > var(pfyh)
# [1] 0.0003411643
# > sd(pfyh)
# [1] 0.01847063
###结果汇总可以看出,离散度差不多。所以说风险差不多,从收益角度要选浦发银行