R语言做统计常用的几个关键公式

10655

收藏 2016-02-15

一、标准差：用来反映变异程度，当两组观察值在单位相同，均值相近的情况下，标准差越大，说明观察值间的变异程度越大，即观察值围绕均数的分布越分散，均数的代表性较差。反之，标准差越小，表明观察值间的变异较小，观察值围绕均数的分布较密集，均值的代表性较好。

需要条件：

1、数据集y

2、数据个数n

3、标准差公式

R：

> y<-c(75,64,47.4,66.9,62.2,62.2,58.7,63.5,66.6,64,57,69,56.9,50,72)

> s<-sd(y)

> s

[1] 7.514823

二、样本标准误差：

衡量的是我们在用样本统计量去推断相应的总体参数（常见如均值、方差等）的时候，一种估计精度。样本统计量本身就是随机变量，每一次抽样，都可以根据抽出的样本情况计算出一个不同的样本统计量值。抽样误差（也就是标准误）越小，说明精度越高。

标准误不仅仅只是样本均数的标准差，还可以指样本标准差、方差等统计量的标准差。

A对一个总体多次抽样，每次样本大小都为n，那么每个样本都有自己的平均值，这些平均值的标准差就是标准误：，标准差s是单次抽样得到的。

B重复测量时，标准误就是a类不确定度：

C当样本数n>30时，样本标准差服从近似正态分布

需要条件：

1、数据集y

2、数据集中数据个数n

3、样本均值

4、样本标准差

5、样本标准误公式：

y<-c(75,64,47.4,66.9,62.2,62.2,58.7,63.5,66.6,64,57,69,56.9,50,72)

> s<-sd(y)

> s

[1] 7.514823

> sm<-s/sqrt(length(y))

> sm

[1] 1.940319

三、偏度系数：偏度系数是刻画数据的对称性指标，关于均值对称的数据其偏度系数为0，分散在右侧的数据偏度系数为正，分散在左侧的偏度系数为负。当g<0时，表示负偏，即均值在峰值的左侧；g>0则表示均值在峰值的右边；当g=0则表示对称分布。

需要的条件：

6、数据集y

7、数据集中数据个数n

8、样本均值

9、样本标准差

10、样本三阶中心距

11、偏度系数公式：也可以写成

> y<-c(75,64,47.4,66.9,62.2,62.2,58.7,63.5,66.6,64,57,69,56.9,50,72)

> z<-function(x){

+ n<-length(x)

+ u3<-sum((x-mean(x))^3)/n

+ s<-sd(x)

+ g<-(n^2*u3)/((n-1)*(n-2)*s^3)

+ data.frame(changdu=n,sanjiezhongxinju=u3,biaozhuncha=s,piainduxishu=g)

+ }

> z

function(x){

n<-length(x)

u3<-sum((x-mean(x))^3)/n

s<-sd(x)

g<-(n^2*u3)/((n-1)*(n-2)*s^3)

data.frame(changdu=n,sanjiezhongxinju=u3,biaozhuncha=s,piainduxishu=g)

}

> z(y)

changdu sanjiezhongxinju biaozhuncha piainduxishu

1 15 -147.5942 7.514823 -0.4299561

四、峰度系数

峰度的概念：峰度用来表示频数分布曲线顶端尖峭还是扁平程度指标。有时两组数据的算术平均数、标准差和偏度系数都相同，但他们分布曲线顶端高耸程度不同。

有时也称为峰态系数：表征概率密度分布曲线在平均值出峰值高低的特征数。直观看来，峰度反映了尾部的厚度。

一般用正态分布的峰度来作为参照，正态分布的峰度为3，若分布小于3，则称分布具有不足的峰度；如果大于3，则表示分布具有过度的峰度。一般分布的取值范围：下限不低于1，上限不超过数据个数的值。

常见分布峰度：均匀分布峰度为1.8；正态分布峰度为3；

在使用过程中，一般将峰度做减去3处理，这样正态分布的峰度就为零。

需要条件：

1、数据集y

2、数据集长度n

3、均值

4、标准差

5、四阶中心距

6、峰度系数公式

R：

> y<-c(75,64,47.4,66.9,62.2,62.2,58.7,63.5,66.6,64,57,69,56.9,50,72)

> k<-function(x){

+ n<-length(x)

+ m<-mean(x)

+ s<-sd(x)

+ sm<-s/sqrt(x)

+ g<-(n*(n+1))*sum((x-m)^4)/((n-1)*(n-2)*(n-3))/s^4

+ data.frame(changdu=n,junzhi=m,biaozhuncha=3,biaozhunwu=sm,fengduxishu=g)

+ }

> k

function(x){

n<-length(x)

m<-mean(x)

s<-sd(x)

sm<-s/sqrt(x)

g<-(n*(n+1))*sum((x-m)^4)/((n-1)*(n-2)*(n-3))/s^4

data.frame(changdu=n,junzhi=m,biaozhuncha=3,biaozhunwu=sm,fengduxishu=g)

}

> k(y)

changdu junzhi biaozhuncha biaozhunwu fengduxishu

1 15 62.36 3 0.8677371 3.86577

2 15 62.36 3 0.9393529 3.86577

3 15 62.36 3 1.0915148 3.86577

4 15 62.36 3 0.9187677 3.86577

5 15 62.36 3 0.9528479 3.86577

6 15 62.36 3 0.9528479 3.86577

7 15 62.36 3 0.9808435 3.86577

8 15 62.36 3 0.9430439 3.86577

9 15 62.36 3 0.9208347 3.86577

10 15 62.36 3 0.9393529 3.86577

11 15 62.36 3 0.9953627 3.86577

12 15 62.36 3 0.9046784 3.86577

13 15 62.36 3 0.9962370 3.86577

14 15 62.36 3 1.0627565 3.86577

15 15 62.36 3 0.8856304 3.86577

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

junge1018

2016-2-15 17:59:24

此乃经验帖？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

奇渥温·沙加

2016-2-16 08:02:23

junge1018 发表于 2016-2-15 17:59
此乃经验帖？

学习分享

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群