一、Proc summary 过程
可以从此过程中,我们可以简单的看到一些变量的统计值(默认是最大值,最小值,个数标准差以及平均值,当然关于那些统计量可以自己选定,如果看到更多的统计量可以使用
univariate,)。根据这些统计量,我们粗略的看到变量情况。另外我们可以使用output out=数据集 输出一些统计量。
(此处说明个细节,proc means与proc summary 之间的区别,proc means自动打印,而proc summary需要加上print才能打印)
proc summary data=quan.baipu print;
var x1;
proc means data=quan.baipu mean max;
var x1;
run;
二、Proc corr过程
Proc corr data=data-set;
With variable ;
Var variable ;
可以通过此过程看出两变量之间的相关性。当然可以再corr 后面加上spearman。这里简要介绍pearson检验与spearman的区别,spearman可以检验变量间非线性关系,而pearson只能检验线性关系。
三、Proc sgplot
Sgplot过程十分强大。
Sgplot可以展示很多类型的图表,比如说散点图(scatter)、线图(seriers)、回归图(reg)、条形图(vbar、hbar)、柱状图(histogram),点图(dot)等等。当然可以很多设置,有人说sas可以做任何图。的确很强大,但是就是各种设置。比如colour:options color=(black等);
回归图
proc sgplot data=quan.baipu;
reg x=x1 y=x2/clm cli;
run;

Dot 图
option fmtsearch=(quan);
proc sgplot data=quan.cydc;
dot q2/group=q1;
format q1 quana. format q2 quanb.;
run;
四、Proc reg; model 因变量=自变量/option;
做回归部分需要有一定的回归基础,比如回归的时候有很多检验,只有检验通过了才能说明模型的合理性。
先从F检验说起吧,F检验通过说明模型整体的显著性通过。
T检验显著性通过说明模型中的参数拒绝假设。
F、T检验在回归过程出来的结果是可以看到的,但是其它相关的东西必须要在模型后面添加。
异方差性检验:
1、残差图
2、对残差做spearman相关性检验,利用残差与x之间的相关性检验。如果残差符合模型假设的话,与x之间没有关系的。也就是相关性比较低。
3、怀特检验(white)检验假设是同方差性
proc reg data=quan.baipu;
model x2=x1/white;
run;
可以从后面的概率值得知,存在异方差性。
补救方法:加权最小二乘估计。
关于加权最小二乘需要使用宏编程,需找最合适的权数。
序列相关性检验(自相关性):即残差之间存在自相关性。
1. 通过残差图检验。
2. D.w检验(根据计量经济学原理d.w检验有五个方面的假设)
proc reg data=quan.baipu;
model x2=x1/dw;
run;
关于D.W检验的区间段,可以判断序列间具有正、负相关。
补救方法:迭代法、差分法、科克伦-奥科特法
共线性性检验:即变量间是否存在共线性性。(vif膨胀因子检验)
proc reg data=quan.baipu;
model x2=x1 x3 x4/vif;
run;
关于膨胀因子大于10,则说明有明显的多重共线性。
补救方法:
逐步回归、主成分回归等等。
逐步回归(selection=stepwise)可以看到逐步回归过程。
其他:
Model 因变量=自变量/r(强影响点) aic(赤持信息)cli(预测的置信区间) clm(检验的置信区间)