笔记 - 经管之家

633

收藏 2013-01-12

LOG视窗用于输出程序在运行时的各种有关信息。主要有以下几种内容：
● 程序行黑色，以系统给出的顺序行号1 2 3...开始。忠实的记录了执行过的每一条语句。
● 提　示蓝色，以NOTE开始。提供系统或程序运行的一些常规信息，大多数时候我们可以视而不见。
● 警　告绿色，以WARNING开始。一般在程序中含有系统可以自动更正的小错误时出现，此时会提供错误序列号。但有时也提供内存不足、软件执照即将到期等信息。出现警告时一般应注意阅读，如程序有错误应立即改正。
● 错　误红色，以ERROR开始。SAS非常狡猾，你的程序稍微难懂一点它就大惊小怪地报错，把问题全推给了你，弄得你不得不重来一遍。

在程序编辑窗口（非增强型），程序一旦提交运行，窗口就被清空。F4键可以回忆起上一次提交的程序。

保存SAS程序时，提供了几种可保存的格式，它们分别是：
● *.sas SAS程序文件。
● *.log LOG视窗输出文件。
● *.lis OUTPUT视窗输出文件。
● *.dat 纯文本格式的数据文件。
● *.rtf 与WORD兼容的RTF格式文件。

永久库可有多个，用户可以使用Libname语句指定永久库的库标记，永久库中的所有文件都将被保留。但库标记仍是临时的，每次启动SAS系统后都要重新指定。

● INFILE语句用于从外部文件读入数据，必须出现在INPUT语句之前。它的主要功能是：
确定一个包含原始数据的外部文本文件。
INFILE语句的格式如下：
INFILE ’外部文件的所在位置及名称’ 选项;

通俗的讲，SAS的程序步（有的书中也称过程或过程步）就是已经编好了的用于数据整理和统计的计算机程序，你只需要调用它们就是了。

常用的程序步的名称及功能。
程序步名       功能
SORT    将指定的数据集按指定变量排序
PRINT    将数据集中的数据列表输出
MEANS    对指定的数值变量进行简单的统计描述
FREQ    对指定的分类变量进行简单的统计描述
TTEST    对指定的变量做t检验
ANOVA    对指定的变量做方差分析
NPAR1WAY 对指定的变量做非参数检验
REG       对指定的变量做回归分析
CORR    对指定的变量做相关分析
CHART    绘出低分辨率的统计图
PROC    就是程序（procedure）的缩写，而程序步的名字大都是其功能相对应的单词或词组的缩写。

使用BY语句要求数据集已经按BY语句中指定的变量排序。如果没有排序，则程序无法正确运行。可以用SORT过程来排序，语法结构如下：
PROC SORT DATA=数据集名；
BY 变量名列；
RUN；

高分辨率图形在专门的GRAPH视窗中输出，而低分辨率图形在OUTPUT视窗中一同输出。只要将绘图过程名中的字母G去掉，做出的就是低分辨率图形，你可以比较一下两种图形的“天壤之别”。

PROC GCHART [ DATA=<数据集名> [选项] ] ; 指定要分析的数据集名及一些选项
　HBAR <变量名列> / [选项] ; 绘出条形图
　VBAR <变量名列> / [选项]; 绘出水平条形图
　BLOCK <变量名列> / [选项]; 绘出三维直方图
　PIE <变量名列> / [选项]; 绘出饼图
　STAR <变量名列> / [选项]; 绘出星状图
　AXISn [选项]; 控制坐标轴的形状和颜色
　BY <变量名列>; 按该变量取值分层绘制，要求数据集已按该变量排序

简要介绍几个常用的绘图语句中的选项。
【绘图语句选项】
● MISSING 指定绘图时要将变量的缺失值也包括在内。
● TYPE=做图类型关键字指定要做图的类型，即图中条块代表的含义：缺省值是频数（FREQ）；如果指定了选择项SUMVAR，则缺省值为总和（SUM）。可选的关键字有：
● FREQ 要求按指定变量的频数做图。
● PERCENT 要求按在横轴刻度表示范围内出现的频数占总数的百分比做图。
● CFREQ 按累计频数做图。
● CPERCENT 按累计百分比做图。
● SUM 只能与SUMVAR选项同时使用，要求图中的每一条代表：变量在横轴表示的取值范围内时，SUMVAR指定变量的总和。
● MEAN 只能与SUMVAR选项同时使用，要求图中的每一条代表：变量在横轴表示的取值范围内时，SUMVAR指定变量的均数。
● SUMVAR=求和变量指定使用TYPE=SUM或MEAN时，用于求总和、均值的变量。
● LEVAL=n 如果绘图变量是连续变量，用该选项产生有N个组段的图形。
● GROUP=分组变量要求产生以分组变量的值分组的并排图。
● SUBGROUP=亚组变量要求每个图形内部再按亚组变量的值分块。
● CAXIS=颜色指定坐标轴的颜色。
● CTEXT=颜色指定坐标轴文本的颜色。

PROC GPLOT [ DATA=<数据集名> [选项] ] ; 　
　PLOT <纵坐标变量*横坐标变量[=分层变量名]...> / [选项];
指定绘图变量和选项
　PLOT2 <纵坐标变量*横坐标变量[=分层变量名]...> / [选项];
在原图基础上重叠绘制第二幅散点图
　SYMBOLn [选项] 定义符号、添加趋势线、定义点和线的颜色
　BY <变量名列>; 按该变量取值分层绘制，要求数据集已按该变量排序
实际上，SYMBOL语句中定义的选项为系统环境控制选项，这意味着一次定义，终生使用。除非重新定义，否则以后的输出图形都将会是第一个图形的“孪生兄弟”。
在这里SYMBOL后面紧跟了一个n，表示任意自然数。因为PLOT语句可以在同一坐标系内重叠绘制许多层图，而这个数字就表示SYMBOL语句是控制的哪一层图。

【GPLOT过程的选项】
● UNIFORM 要求用BY语句分组打印的散点图的坐标刻度相同，便于比较。
● VTOH=数值指定纵横坐标的比例。
【PLOT语句说明】
● 分层变量
表示所做的散点图按指定变量的取值分层，默认按不同颜色来区分。
● 语句选项
● OVERLAY 同一语句做的图重叠在同一个坐标系中显示。
● HAXIS=数值定义横坐标的刻度。
● VAXIS=数值定义纵坐标的刻度。
● CAXIS=颜色定义坐标轴的颜色。
● CTEXT=颜色定义坐标轴文本的颜色。
【SYMBOL语句选项】
● VALUE=符号可用的符号及相应名称有：＋ PLUS ★ STAR ■ SQUARE ◆ DIAMOND ▲ TRIANGLE
● I=连线方式　 ① JOIN 用直线连接。
　　　　　　　　② SPLINE 用光滑的曲线连接。
1. NEEDLE 向横坐标画垂线。
2. RL 添加回归直线。
● WIDTH=宽度定义数据点和连线的宽度。
● COLOR=颜色定义数据点和连线的颜色。

绘制高分辨率统计图非常耗费系统资源，因此SAS在执行作图语句时实际上是将这些语句存入程序缓冲区，当用户打开GRAPH视窗看结果时才正式执行，从而绘出所需的统计图。如果用户没有看所绘制的图形，则绘图语句就一直留在缓冲区内，此时用户再执行任何程序，程序语句就全部在缓冲区内排队，等待绘图语句执行完毕，因此就无法得到相应的输出结果，这是同学们在上机时常犯的一个错误。

对于定量资料的统计描述和简单推断，SAS提供了三个强有力的程序步，它们是：
● UNIVARIATE过程提供单个变量的详细描述和对其分布类型的检验。
● MEANS过程提供单个或多个变量的简单描述，对于多个变量，它的输出格式紧凑，便于阅读。
● TTEST过程对变量进行t/u检验。

Univariate过程对数值变量给出比较详细的变量分布的描述，其中包括：
● 变量的极端值。
● 常用的百分位数，包括四分位数和中位数。
● 用几个散点图描绘变量的分布。
● 频数表。
● 确定数据为正态分布的检验。

Univariate过程的语法格式如下：
PROC UNIVARIATE [ DATA= <数据集名> [选项] ];
指定要分析的数据集名及选项
　[ VAR <变量名列> ; 指定要分析的变量名列
　BY <变量名列> ; 按变量名列分组统计，要求数据集已按该变量名列排序
　FREQ <变量名> ; 表明该变量为分析变量的频数
　WEIGHT <变量名> ; 表明分析变量在统计时要按该变量权重
　ID <变量名> ; 输出时加上该变量作为索引
　OUTPUT OUT= <数据集名> 指定统计量的输出数据集名
　关键字= <新变量名列>... 指定统计量对应的新变量名
　pctlpts=<百分位数, ...> 指定需要的百分位数
　pctlpre=<新变量名列>] ; 指定所需百分位数对应的输出变量名
如果省略所有非必需的语句和选项，则UNIVARIATE过程按默认情况输出全部变量的全部常用统计量。

【选项】
Univariate过程常用的选项如下：
● NOPRINT 禁止统计报告在OUTPUT视窗中输出
● PLOT 绘出茎叶图、箱式图和正态概率图
● FREQ 给出频数表
● NORMAL 对变量进行正态性检验
【关键字】
SAS中用关键字来指定所需要的统计量，事实上结果输出中用的就是各种关键字，常用的关键字有：
● 基本统计量 N MEAN STD(标准误) CV SUM VAR(方差) RANG
● 百分位数描述 MIN P1 P5 P10 Q1 MEDIAN Q3 P90 P95 P99 MAX
● 与假设检验有关的统计量 STDMEAN(标准误) T

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群