一、定性/定量数据l 定性数据:
频数:类(或组)频数是指落入这个类中的观测值的个数
频率:类(或组)相对频率是指落入这个类中的观测值的个数相对于观测值总数的比例
l 定量数据:
集中趋势的度量:均值、中位数、众数。
变异程度的度量:极差、方差、标准差
相对位置的度量:标准得分
偏度:如果数据的分布是对称的,则偏度系数为0;如果偏度系数明显不等于0,表明分布是非对称的。若偏度系数大于1或者小于-1,被称为高度偏态分布。
峰度:与标准正态分布比较,Stata计算的峰度系数未减3,故而是与3作比较而不是与0作比较。若峰度系数等于3则服从标准正态分布,反之则意味着分布比正态分布更尖或者更平。
l summarize wage lwage//基本统计分析
l summarize wage lwage,detail//详尽统计分析
l outreg2 using myfile3.doc, word sum(detail)replace see//导出到word
l tabstat: mean 平均数 count / n 观测值数目
sum 加总 max/ min 最大值、最小值
range 极差 sd 标准差
var 方差 cv 变异系数 (sd/mean)
semean 平均标准误 (sd/sqrt(n))
skewness偏度 kurtosis 峰度
median 中位数
iqr 四分位数间距(p75 - p25)
q 等价于写p25 p50 p75
l tabstat wage lwage,stat(count mean p50 sdskew kurt)//使用stat()要求定制输出地统计指标:观测值的个数、平均数、中位数、标准差、偏度、峰度
l tabstat wage lwage,stat(count mean p50 sdskew kurt) col(stat)// 在命令中加入选项col(stat)通过让统计量以列的方式呈现,可以使结果更便于分析和对比
l tabstat wage lwage,by(female) stat(countmean p50 sd skew kurt) col(stat) long//加入by(female)选项和long选项,要求Stata根据性别分别统计wage和lwage两个变量,并且标注变量名称
二、探测异常值1、 标准化
gen z=(wage-r(mean))/r(sd) //生产标准差
list wage z if z>3 //列举
2、箱线图
l graph box wage //wage 的箱线图
sort wage
list in 1/4
l graph hbox wage, over(female) //同一个图内按female分组
l graph hbox wage, by(female) //按female分组,不同图坐标
三、数据的正态性检验l 分位——正态图的绘制:
qnorm wage,grid
l 正态性检验:
1、 偏度/峰度检验
sktest wage
2、 Shapiro—Wilk W检验
l swilk wage
l lnskew0 wage2=wage
swilk wage2,lnnormal // lnskew0命令是为wage找一个k使得ln(wage-k)的偏度为0,并定义这个新的变量为wage2;当对完成这一变换的变量进行swilk检验时,需要加入lnnormal选项
3、 Shapiro—Francia W’检验
sfrancia wage
4、 D’ Agostino检验
sktestdc wage lwage,noadjust
四、数据转换1、 幂阶梯转换
ladder wage //9种形式转换
2、 直方图
qladder wage
3、 分位正态图
gladder wage
五、相关系数l 四种系数:Pearson相关系数、.Kendallτ相关系数、Spearman秩相关系数、偏相关系数
l Pearson相关系数
correlate wage educ exper tenure //显示相关系数
correlate wage educ exper tenure, covariance //添加covariance选项可以得到这些变量的协方差矩阵 pwcorr wage educ exper tenure,sig star(.05) print(.05) //sig:显示显著性检验的p值;print:显示达到相应显著水平的系数;star:显示的相关系数上打上星号
l graph matrix wage educ expertenure//相关系数数字背后的图形直觉