R程序分享 - 经管之家

R程序分享

chenjinjian

1547

收藏 2017-04-10

[size=13.3333px]数理统计
基础知识

[size=13.3333px]mean（x，trim=0,na,rm=FALSE）——均值，trim去掉x两端观测值的便利，默认为0，即包括全部数据，na.rm=TRUE允许数据中有缺失
weighted.mean(x，<weigth>)——加权平均值，weigth表示对应权值
median——中值
quantile(x，probs=seq(<start>,<end>,<diff>))——计算百分位数，是五数总和的扩展，probs设置分位数分位点，用seq(0,1,0.2)设置，表示以样本值*20%为间隔划分数据。
var（）——样本方差（n-1）
sd——样本标准差（n-1）
cov——协方差
cor——相关矩阵
fivenum(x,na.rm=TRUE)——五数总括：中位数，下上四分位数，最小值，最大值
数学函数
sum（x,y,z，na.rm=FALSE）——x+y+z，na.rm为TURE可以忽略掉na值数据
sum（x>4）——统计向量x中数值大于4的个数
rep（“LOVE！”，<times>）——重复times次，rep(1:3，c（1，2，3）)表示1个1，2个2，3个3组成的序列
sqrt（）——开平方函数
2^2 和 **——“^”幂运算
abs（）——绝对值函数
'%%'——表示求余
'%/%'——求商（整数）

[size=13.3333px]exp ： 2.71828…
expm1 ：当x的绝对值比1小很多的时候，它将能更加正确的计算exp(x)-1
log ：对数函数（自然对数）
log10 ：对数（底为10）函数（常用对数）
log2 ：对数（底为2）函数
因为10>e>1，常用对数比自然对数更接近横坐标轴x
log1p()——log（1+p），用来解决对数变换时自变量p=0的情况。指数和对数的变换得出任何值的0次幂都是1
特性：对数螺旋图。当图像呈指数型增长时，常对等式的两边同时取对数已转换成线性关系。

[size=13.3333px]sin ：正弦函数
cos ：余弦函数
tan ：正切函数
asin ：反正弦函数
acos ：反余弦函数
atan ：反正切函数
sinh ：超越正弦函数
cosh ：超越余弦函数
tanh ：超越正切函数
asinh ：反超越正弦函数
acosh ：反超越余弦函数
atanh ：反超越正切函数
logb ：和log函数一样
log1px ：当x的绝对值比1小很多的时候，它将能更加正确的计算log(1+x)
gamma ： Γ函数（伽玛函数）
lgamma ：等同于log(gamma(x))
ceiling ：返回大于或等于所给数字表达式的最小整数
floor ：返回小于或等于所给数字表达式的最大整数
trunc ：截取整数部分
round ：四舍五入
signif(x,a) ：数据截取函数 x：有效位 a：到a位为止
圆周率用 ‘pi’表示

[size=13.3333px]
crossprod(A,B)——A %*% t(B) ，内积
tcrosspeod(A,B)——t(A) %*% B，外积
%*%——内积，a1b1+a2b2+...+anbn=a*b*cos<a,b>，crossprod(x)表示x与x的内积。||x||2，矩阵相乘
%o%——外积，a*b*sin<a,b>（矩阵乘法，叉积），tcrossprod(x,y)表示x与y的外积。*表示矩阵中对应元素的乘积！
向量内积（点乘）和向量外积（叉乘）
正态分布
dnorm（x，mean=0,sd=1,log=FALSE）——正态分布的概率密度函数
pnorm(x，mean=0,sd=1)——返回正态分布的分布函数·
rnorm（n，mean=0.sd=1）——生成n个正态分布随机数构成的向量
qnorm()——下分为点函数

[size=13.3333px]qqnorm（data）——画出qq散点图
qqline（data）——低水平作图，用qq图的散点画线
qq.plot（<x>，main=''）——qq图检验变量是否为正态分布
简单分析
summary()——描述统计摘要，和 Hmisc()包的describe()类似，会显示NA值，四分位距是第1个（25%取值小于该值）和第3个四分位数（75%取值小于该值）的差值（50%取值的数值），可以衡量变量与其中心值的偏离程度，值越大则偏离越大。

[size=13.3333px]table(<datafame>$<var>)——统计datafame数据中属性变量var的数值取值频数(NA会自动去掉！)，列联表
table(<data_var_1>, <data_var_2>)——比较两个data_var，<data_var_1>为列，<data_var_2>为行，先列后行！
xtabs(formular，data)——列联表
ftable( table())——三维列联表
prop.table()——统计所占百分比例
prop.table(table(<data_var_1>, <data_var_2>)，<int>)——比较两个data_var所占百分比，<int>填1位按行百分计算，2为列计算
margin.table( table()，<int> )——计算列联表的边际频数（边际求和）,<int>=1为按列变量
addmargin.table（table()，<int> ）——计算列联表的边际频数（边际求和）并求和,<int>=1为按列变量

[size=13.3333px]as.formula(<string>)——转换为一个R公式，<string>是一个字符串
循环时的判断语句：
ifelse(<test>, <yes>, <no>)——if，else的变种，test是判断语句,其中的判断变量可以是一个向量！yes是True时的赋值，no是False时的赋值

[size=13.3333px]hist(<data>，prob=T，xlab='横坐标标题'，main='标题'，ylim=0:1，freq，breaks=seq(0,550,2))——prob=T表示是频率直方图，在直角坐标系中，用横轴每个小区间对应一个组的组距，纵轴表示频率与组距的比值，直方图面积之和为1；prob位FALSE表示频数直方图；ylim设置纵坐标的取值范围；freq为TRUE绘出频率直方图，counts绘出频数直方图，FALSE绘出密度直方图。breaks设置直方图横轴取点间隔，如seq(0,550,2)表示间隔为2，从0到550之间的数值。

[size=13.3333px]density(<data>,na.rm=T)——概率密度函数（核密度估计，非参数估计方法），用已知样本估计其密度,作图为lines(density(data),col="blue")
ecdf（data）——经验分布函数,作图plot(ecdf(data),verticasl=FALSE,do.p=FALSE)，verticals为TRUE表示画竖线，默认不画。do.p=FALSE表示不画点处的记号
假设检验

[size=13.3333px]分布函数
shapiro.test(data)——正态W检验方法，当p值大于a为正态分布
ks.test(x,y)——经验分布的K-S检验方法，比较x与y的分布是否相同，y是与x比较的数据向量或者是某种分布的名称，ks.test(x, rnorm(length(x), mean(x), sd(x)))，或ks.test(x,"pnorm",mean(x),sd(x))

[size=13.3333px]chisq.test(x，y，p)——Pearson拟合优度X2（卡方）检验，x是各个区间的频数，p是原假设落在小区间的理论概率，默认值表示均匀分布,要检验其它分布，比如正态分布时先构造小区间，并计算各个区间的概率值，方法如下：
brk<-cut(x,br=c(-6,-4,-2,0,2,4,6,8))#切分区间
A<-table(brk)#统计频数
p<-pnorm(c(-4,-2,0,2,4,6,8),mean(x),sd(x))#构造正态分布函数
p<-c(p[1],p[2]-p[1],p[3]-p[2],p[4]-p[3],p[5]-p[4],p[6]-p[5],p[7]-p[6])#计算各个区间概率值
chisq.test(A,p=p)
正态总体的均值方差
t.test(x，y，alternative=c("two.sided","less","greater")，var.equal=FALSE)——单个正态总体均值μ或者两个正态总体均值差μ1-μ2的区间估计；alternative表示备择假设：two.side（默认）是双边检验，less表示H1:μ<μ0，greater表示H1：μ>μ0的单边检验(μ0表示原假设)；当var.equal=TRUE时，则是双样本方差相同的情况，默认为不同
var.test(x，y)——双样本方差比的区间估计
独立性检验（原假设H0：X与Y独立）
chisq.test(x,correct=FALSE)——卡方检验，x为矩阵，dim(x)=c(2,2)，对于大样本（频数大于5）
fisher.test()——单元频数小于5，列联表为2*2
相关性检验（原假设H0：X与Y相互独立）
cor.test（x,y,method=c("pearson","kendall","spearman")）——相关性检验，观察p-value小于0.05则相关。method选择相关性检验方法秩
rank()——秩统计量
cor.test（）——秩相关检验：Spearman，Kendall
wilcox.test(x,y=NULL，mu,alternative，paired=FALSE，exact=FALSE,correct=FALSE，conf.int=FALSE)——秩显著性检验（一个样本来源于总体的检验，显著性差异的检验），Wilcoxon秩和检验（非成对样本的秩次和检验）,mu是待检测参数，比如中值，paired逻辑变量，说明变量x，y是否为成对数据，exact说民是否精确计算P值，correct是逻辑变量，说明是否对p值采用连续性修正，conf.int是逻辑变量，给出相应的置信区间。

[size=13.3333px]uniroot(f，interval=c(1,2))——求一元方程根的函数，f是方程，interval是求解根的区间内，返回值root为解
optimize(）或 optimise（）——求一维变量函数的极小点
nlm（f，p）——求解无约束问题，求解最小值，f是极小的目标函数，p是所有参数的初值，采用Newton型算法求极小，函数返回值是一个列表，包含极小值、极小点的估计值、极小点处的梯度、Hesse矩阵以及求解所需的迭代次数等。
显著性差异检验（方差分析，原假设：相同，相关性）
mcnemar.test(x,y，correct=FALSE)——相同个体上的两次检验，检验两元数据的两个相关分布的频数比变化的显著性，即原假设是相关分布是相同的。y是又因子构成的对象，当x是矩阵时此值无效。
binom.test(x，n，p，alternative=c("two.sided","less","greater")，conf.level=0.95)——二项分布，符号检验（一个样本来源于总体的检验，显著性差异的检验）

[size=13.3333px]aov（x~f）——计算方差分析表，x是与（因子）f对应因素水平的取值，用summary（）函数查看信息
aov（x~A+B+A：B）——双因素方差，其中X~A+B中A和B是不同因素的水平因子（不考虑交互作用），A：B代表交互作用生成的因子
p.adjust()——P值调整函数
pairwise.t.test(x，g，p.adjust.method="holm")——多重t检验,p.adjust.method是P值的调整方法，其方法由p.adjust（）给出，默认值按Holm方法（”holm“）调整，若为”none“，表示P值不做任何调整。双因素交互作用时g=A：B
shapiro.test（x）——数据的正态W检验
bartlett.test（x~f，data）——Bartlett检验，方差齐性检验
kruskal.test（x~f，data）——Kruskal-Wallis秩和检验，非参数检验法，不满足正态分布
friedman.test(x，f1，f2，data）——Friedman秩和检验，不满足正态分布和方差齐性，f1是不同水平的因子，f2是试验次数的因子

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群