如何利用SAS提取Key=value数据格式中的value

lunix的昵称

5734

收藏 2015-11-04

SAS中读取数据时，原始数据格式如下：

ASN=2,3;CEU=2;CHB=4,5,6;CHS=6,7

ASN=3;CEU=2,3;AFR=2,3;CHB=4,5;CHS=7,8

ASN=2,CEU=2,5;JPN=4,5,6;AFR=4,5,6;CHB=5,6,7

每一行包含的内容不一样，但是都是以Key=value的形式存储然后以;分割，我现在想提取出每一行CHB=后面的value，perl中好像有相应的方法来处理，但是自己不怎么擅长perl，所以请问各位高手在SAS中有什么好的办法吗？谢谢

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

yang1015661763

2015-11-4 15:21:31

SAS 有个substr函数，你可以在sql过程中弄一下试试

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

lunix的昵称

2015-11-9 10:13:38

yang1015661763 发表于 2015-11-4 15:21
SAS 有个substr函数，你可以在sql过程中弄一下试试

substr 一般的用法是 substr(variable, position, length), 但是该数据首先的一个问题是，每一行的变量的个数和位置不一样，所以需要
1. 根据Key来定位到自己想要的变量
2. 然后再提取出来该变量后面的value（这个时候或许可以用到substr,但也会有一些问题，比如每个变量的长度不是固定的，没有办法制定substr中的length的大小)。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

lqyrendajinji

2015-11-10 05:06:18

data a;
infile "H:\test.txt" truncover;
input b $100.;
run;

proc print; run;

data c; set a;
l1=find(b,'CHB=','i');
d=substr(b,l1+4);
l2=findc(d,"ACJ");
if l2>0 then e=substr(d,1,l2-2);
else e=d;
run;

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

teqel

2015-11-10 06:22:57

试试input with named

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

lunix的昵称

2015-11-10 13:12:17

lqyrendajinji 发表于 2015-11-10 05:06
data a;
infile "H:\test.txt" truncover;
input b $100.;

很聪明的方法，谢谢！
不过在I2=findc(d,"ACJ");这个命令中ACJ是你根据我提供的三行数据总结出来的三种情况，事实上原始数据有3个G，后面不一定局限于“ACJ”三种情况。
我自己找到一个办法，你可以参考下：
data a;
infile "H:\test.txt" truncover;
input b $100.;
run;

data c; set a;
chb = scan(scan(tranwrd(b,"CHB=","|"),2,"|"),1,";");
run;

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

lunix的昵称

2015-11-10 13:15:46

teqel 发表于 2015-11-10 06:22
试试input with named

你是说在读入数据的时候就读入变量的Name吗？但是该数据本身以分号分割的话，每一列不一定是一样的内容

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

teqel

2015-11-11 00:27:22

lunix的昵称发表于 2015-11-10 13:15
你是说在读入数据的时候就读入变量的Name吗？但是该数据本身以分号分割的话，每一列不一定是一样的内容

确实不行，试试这个

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

teqel

2015-11-11 02:17:04

lunix的昵称发表于 2015-11-10 13:12
很聪明的方法，谢谢！
不过在I2=findc(d,"ACJ");这个命令中ACJ是你根据我提供的三行数据总结出来的三种情 ...

这个不错

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

teqel

2015-11-11 02:20:44

lunix的昵称发表于 2015-11-10 13:12
很聪明的方法，谢谢！
不过在I2=findc(d,"ACJ");这个命令中ACJ是你根据我提供的三行数据总结出来的三种情 ...

简单一点：

data a;
input;
chb = scan(scan(tranwrd(_infile_,"CHB=","|"),2,"|"),1,";");
datalines4;
ASN=2,3;CEU=2;CHB=4,5,6;CHS=6,7
ASN=3;CEU=2,3;AFR=2,3;CHB=4,5;CHS=7,8
ASN=2;CEU=2,5;JPN=4,5,6;AFR=4,5,6;CHB=5,6,7
;;;;
run;

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

木叶知秋

2015-11-11 11:43:40

正则表达式小试牛刀：

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

teqel

2015-11-11 12:09:01

木叶知秋发表于 2015-11-11 11:43
正则表达式小试牛刀：

很好~~

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

lunix的昵称

2015-11-11 17:44:10

teqel 发表于 2015-11-11 00:27
确实不行，试试这个

这个可以

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

lunix的昵称

2015-11-11 17:49:23

木叶知秋发表于 2015-11-11 11:43
正则表达式小试牛刀：

正则表达式确实强大

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群