立即打开
LOG视窗 用于输出程序在运行时的各种有关信息。主要有以下几种内容:
● 程序行 黑色,以系统给出的顺序行号1 2 3...开始。忠实的记录了执行过的每一条语句。
● 提 示 蓝色,以NOTE开始。提供系统或程序运行的一些常规信息,大多数时候我们可以视而不见。
● 警 告 绿色,以WARNING开始。一般在程序中含有系统可以自动更正的小错误时出现,此时会提供错误序列号。但有时也提供内存不足、软件执照即将到期等信息。出现警告时一般应注意阅读,如程序有错误应立即改正。
● 错 误 红色,以ERROR开始。SAS非常狡猾,你的程序稍微难懂一点它就大惊小怪地报错,把问题全推给了你,弄得你不得不重来一遍。 在程序编辑窗口(非增强型),程序一旦提交运行,窗口就被清空。F4键可以回忆起上一次提交的程序。 保存SAS程序时,提供了几种可保存的格式,它们分别是:
● *.sas SAS程序文件。
● *.log LOG视窗输出文件。
● *.lis OUTPUT视窗输出文件。
● *.dat 纯文本格式的数据文件。
● *.rtf 与WORD兼容的RTF格式文件。 永久库可有多个,用户可以使用Libname语句指定永久库的库标记,永久库中的所有文件都将被保留。但库标记仍是临时的,每次启动SAS系统后都要重新指定。 ● INFILE语句 用于从外部文件读入数据,必须出现在INPUT语句之前。它的主要功能是:
确定一个包含原始数据的外部文本文件。
INFILE语句的格式如下:
INFILE ’外部文件的所在位置及名称’ 选项; 通俗的讲,SAS的程序步(有的书中也称过程或过程步)就是已经编好了的用于数据整理和统计的计算机程序,你只需要调用它们就是了。 常用的程序步的名称及功能。
程序步名 功 能
SORT 将指定的数据集按指定变量排序
PRINT 将数据集中的数据列表输出
MEANS 对指定的数值变量进行简单的统计描述
FREQ 对指定的分类变量进行简单的统计描述
TTEST 对指定的变量做t检验
ANOVA 对指定的变量做方差分析
NPAR1WAY 对指定的变量做非参数检验
REG 对指定的变量做回归分析
CORR 对指定的变量做相关分析
CHART 绘出低分辨率的统计图
PROC 就是程序(procedure)的缩写,而程序步的名字大都是其功能相对应的单词或词组的缩写。 使用BY语句要求数据集已经按BY语句中指定的变量排序。如果没有排序,则程序无法正确运行。可以用SORT过程来排序,语法结构如下:
PROC SORT DATA=数据集名;
BY 变量名列;
RUN; 高分辨率图形在专门的GRAPH视窗中输出,而低分辨率图形在OUTPUT视窗中一同输出。只要将绘图过程名中的字母G去掉,做出的就是低分辨率图形,你可以比较一下两种图形的“天壤之别”。 PROC GCHART [ DATA=<数据集名> [选项] ] ; 指定要分析的数据集名及一些选项
HBAR <变量名列> / [选项] ; 绘出条形图
VBAR <变量名列> / [选项]; 绘出水平条形图
BLOCK <变量名列> / [选项]; 绘出三维直方图
PIE <变量名列> / [选项]; 绘出饼图
STAR <变量名列> / [选项]; 绘出星状图
AXISn [选项]; 控制坐标轴的形状和颜色
BY <变量名列>; 按该变量取值分层绘制,要求数据集已按该变量排序 简要介绍几个常用的绘图语句中的选项。
【绘图语句选项】
● MISSING 指定绘图时要将变量的缺失值也包括在内。
● TYPE=做图类型关键字 指定要做图的类型,即图中条块代表的含义:缺省值是频数(FREQ);如果指定了选择项SUMVAR,则缺省值为总和(SUM)。可选的关键字有:
● FREQ 要求按指定变量的频数做图。
● PERCENT 要求按在横轴刻度表示范围内出现的频数占总数的百分比做图。
● CFREQ 按累计频数做图。
● CPERCENT 按累计百分比做图。
● SUM 只能与SUMVAR选项同时使用,要求图中的每一条代表:变量在横轴表示的取值范围内时,SUMVAR指定变量的总和。
● MEAN 只能与SUMVAR选项同时使用,要求图中的每一条代表:变量在横轴表示的取值范围内时,SUMVAR指定变量的均数。
● SUMVAR=求和变量 指定使用TYPE=SUM或MEAN时,用于求总和、均值的变量。
● LEVAL=n 如果绘图变量是连续变量,用该选项产生有N个组段的图形。
● GROUP=分组变量 要求产生以分组变量的值分组的并排图。
● SUBGROUP=亚组变量 要求每个图形内部再按亚组变量的值分块。
● CAXIS=颜色 指定坐标轴的颜色。
● CTEXT=颜色 指定坐标轴文本的颜色。 PROC GPLOT [ DATA=<数据集名> [选项] ] ;
PLOT <纵坐标变量*横坐标变量[=分层变量名]...> / [选项];
指定绘图变量和选项
PLOT2 <纵坐标变量*横坐标变量[=分层变量名]...> / [选项];
在原图基础上重叠绘制第二幅散点图
SYMBOLn [选项] 定义符号、添加趋势线、定义点和线的颜色
BY <变量名列>; 按该变量取值分层绘制,要求数据集已按该变量排序
实际上,SYMBOL语句中定义的选项为系统环境控制选项,这意味着一次定义,终生使用。除非重新定义,否则以后的输出图形都将会是第一个图形的“孪生兄弟”。
在这里SYMBOL后面紧跟了一个n,表示任意自然数。因为PLOT语句可以在同一坐标系内重叠绘制许多层图,而这个数字就表示SYMBOL语句是控制的哪一层图。 【GPLOT过程的选项】
● UNIFORM 要求用BY语句分组打印的散点图的坐标刻度相同,便于比较。
● VTOH=数值 指定纵横坐标的比例。
【PLOT语句说明】
● 分层变量
表示所做的散点图按指定变量的取值分层,默认按不同颜色来区分。
● 语句选项
● OVERLAY 同一语句做的图重叠在同一个坐标系中显示。
● HAXIS=数值 定义横坐标的刻度。
● VAXIS=数值 定义纵坐标的刻度。
● CAXIS=颜色 定义坐标轴的颜色。
● CTEXT=颜色 定义坐标轴文本的颜色。
【SYMBOL语句选项】
● VALUE=符号 可用的符号及相应名称有: + PLUS ★ STAR ■ SQUARE ◆ DIAMOND ▲ TRIANGLE
● I=连线方式 ① JOIN 用直线连接。
② SPLINE 用光滑的曲线连接。
1. NEEDLE 向横坐标画垂线。
2. RL 添加回归直线。
● WIDTH=宽度 定义数据点和连线的宽度。
● COLOR=颜色 定义数据点和连线的颜色。 绘制高分辨率统计图非常耗费系统资源,因此SAS在执行作图语句时实际上是将这些语句存入程序缓冲区,当用户打开GRAPH视窗看结果时才正式执行,从而绘出所需的统计图。如果用户没有看所绘制的图形,则绘图语句就一直留在缓冲区内,此时用户再执行任何程序,程序语句就全部在缓冲区内排队,等待绘图语句执行完毕,因此就无法得到相应的输出结果,这是同学们在上机时常犯的一个错误。 对于定量资料的统计描述和简单推断,SAS提供了三个强有力的程序步,它们是:
● UNIVARIATE过程 提供单个变量的详细描述和对其分布类型的检验。
● MEANS过程 提供单个或多个变量的简单描述,对于多个变量,它的输出格式紧凑,便于阅读。
● TTEST过程 对变量进行t/u检验。 Univariate过程对数值变量给出比较详细的变量分布的描述,其中包括:
● 变量的极端值。
● 常用的百分位数,包括四分位数和中位数。
● 用几个散点图描绘变量的分布。
● 频数表。
● 确定数据为正态分布的检验。 Univariate过程的语法格式如下:
PROC UNIVARIATE [ DATA= <数据集名> [选项] ];
指定要分析的数据集名及选项
[ VAR <变量名列> ; 指定要分析的变量名列
BY <变量名列> ; 按变量名列分组统计,要求数据集已按该变量名列排序
FREQ <变量名> ; 表明该变量为分析变量的频数
WEIGHT <变量名> ; 表明分析变量在统计时要按该变量权重
ID <变量名> ; 输出时加上该变量作为索引
OUTPUT OUT= <数据集名> 指定统计量的输出数据集名
关键字= <新变量名列>... 指定统计量对应的新变量名
pctlpts=<百分位数, ...> 指定需要的百分位数
pctlpre=<新变量名列>] ; 指定所需百分位数对应的输出变量名
如果省略所有非必需的语句和选项,则UNIVARIATE过程按默认情况输出全部变量的全部常用统计量。 【选项】
Univariate过程常用的选项如下:
● NOPRINT 禁止统计报告在OUTPUT视窗中输出
● PLOT 绘出茎叶图、箱式图和正态概率图
● FREQ 给出频数表
● NORMAL 对变量进行正态性检验
【关键字】
SAS中用关键字来指定所需要的统计量,事实上结果输出中用的就是各种关键字,常用的关键字有:
● 基本统计量 N MEAN STD(标准误) CV SUM VAR(方差) RANG
● 百分位数描述 MIN P1 P5 P10 Q1 MEDIAN Q3 P90 P95 P99 MAX
● 与假设检验有关的统计量 STDMEAN(标准误) T
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
栏目导航
热门文章
推荐文章
扫码加好友,拉您进群