我的数据如下:
id rs1 rs2 rs3 rs4
ind1 TT GG GG TT
ind2 TT GG GG TT
ind3 TT GG GG TT
ind4 AA GG GG TT
ind5 AT GG GG TT
ind6 TT GG GG TT
ind7 AT GG GG TT
ind8 AT GG GG TT
ind9 AT GG GG TT
ind10 AT GG GG TT
ind11 AA CC GG TT
ind12 TT CG GG TT
ind13 AA GG GA TT
ind14 AT GG GG TT
ind15 TT GC GG CC
ind16 AT CC AA CT
ind17 AT GG AG TC
ind18 AT CG AG TT
ind19 AT CG GG TT
ind20 AA GC GG TT
ind21 TT CC AG TT
ind22 AA CG AA TT
ind23 AT GG GA TC
ind24 TT GG GG TT
ind25 AT GC GG TT
ind26 AT CC AA CC
ind27 AT GG AG CT
ind28 AT CG AG TC
ind29 AT CG GG TT
ind30 AT GC GG TT
id是人的编号,rs1, rs2,rs3,rs4是变量。每个变量是2个字母的组合,而且这2个字母一定是A T C G中的2个。比如第一列是A和T的组合。我想数出来每一列中哪个字母为少数字母,然后该列中2个少数字母的组合=2,含有一个少数字母=1,不含少数字母=0。比如第一列A字母数少于T字母数,然后所有的AA=2,AT=1,TA=1,TT=0。另外3列也是如此。我目前已经有SAS macro可以用,但是有点复杂。希望版上大牛能提供一个简洁高效的代码可用。