全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
1545 0
2013-03-04
第22章有个程序:

libname SASA "R:\Temp";
data SASA.ch22_2;
        infile "R:\temp\ch22_2.txt";
        retain address;
        input type $1. @;
        if type='H' then input @3 address $15.;            
    *if type='P';
        *input @3 name $10. @13 age 3. @16 Gender $1.;   
run;
proc print data=sasa.ch22_2;
run;

其中ch22_2.txt的内容如下, 是我手动输进去的:
H 321 S. MAIN ST
P MARY E    21 F
P WILLIAM M 23 M
P SUSAN K    3 F
H 324 S. MAIN ST
P THOMAS H  79 M
P WALTER S  46 M
P ALICE A   42 F
P HARYANN A 20  
P JOHN S    16 M
H 325A S.MAIN ST
P JAMES L   34 M
P LIZA A    31 F
H 325B S.MAIN ST
P MARGO K   27 F
P WILLIAN R 27 M
P ROBERT W   1 M

结果运行出来的是,与书中的结果不对应:
Obs address type
1 P MARY E 21 H
2 P MARY E 21 P
3 P MARY E 21 P
4 P THOMAS H 79 H
5 P THOMAS H 79 P
6 P THOMAS H 79 P
7 P THOMAS H 79 P
8 P THOMAS H 79 P
9 P JAMES L 34 H
10 P JAMES L 34 P
11 P MARGO K 27 H
12 P MARGO K 27 P
13 P MARGO K 27 P

但是如果把程序改成用datalines读取数据(数据完全一样),结果会是我们期望的那样:
libname SASA "R:\Temp";
data SASA.ch22_2;
        *infile "R:\temp\ch22_2.txt";
        retain address;
        input type $1. @;
        if type='H' then input @3 address $15.;            
    *if type='P';
        *input @3 name $10. @13 age 3. @16 Gender $1.;   
    datalines;
H 321 S. MAIN ST
P MARY E    21 F
P WILLIAM M 23 M
P SUSAN K    3 F
H 324 S. MAIN ST
P THOMAS H  79 M
P WALTER S  46 M
P ALICE A   42 F
P HARYANN A 20  
P JOHN S    16 M
H 325A S.MAIN ST
P JAMES L   34 M
P LIZA A    31 F
H 325B S.MAIN ST
P MARGO K   27 F
P WILLIAN R 27 M
P ROBERT W   1 M
;            
run;
proc print data=sasa.ch22_2;
run;

结果:
Obs address type
1 321 S. MAIN ST H
2 321 S. MAIN ST P
3 321 S. MAIN ST P
4 321 S. MAIN ST P
5 324 S. MAIN ST H
6 324 S. MAIN ST P
7 324 S. MAIN ST P
8 324 S. MAIN ST P
9 324 S. MAIN ST P
10 324 S. MAIN ST P
11 325A S.MAIN ST H
12 325A S.MAIN ST P
13 325A S.MAIN ST P
14 325B S.MAIN ST H
15 325B S.MAIN ST P
16 325B S.MAIN ST P
17 325B S.MAIN ST P

这是为什么呢? 我研究了半天, 发现这里有一个隐晦的陷井:
input @3 address $15.;
实际上, 数据文件ch22_2.txt, 从第3列开始到最后,只有14个列. 但是在formatted input中输入的是$15,导致了SAS指针向下移动一个数据行.
想要解决这个问题有几个方法:
1)在infile语句后面加上Truncover选项;
2)把input语句改为input @3 address $14.;(属于临时救急,如果数据不能对齐的话还是会有问题)
3)在ch22_2.txt每一行后面补上空格,让它能够满足input的需求;

那为什么datalines语句中没有加这些东西也能正确读取呢? 搜了一下论坛, 有前辈说datalines读取数据时, 会自动在后面补上(80-n)个空格...现在终于明白了为什么有些数据软件导出的文本数据, 会用空格一直填到column 80.


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群