[求助]stata循环命令及提取回归结果的程序

9376

收藏 2009-07-07

在下为stata菜鸟，目前在研究基因对疾病的影响，现在如下数据：
y x1 x2 x3 x4 ... x1000
0  0 1 0 1  ... 0
0  1 1 1 1  ... 0
1  0 0 1 0  ... 0
0  1 1 0 0  ... 1
... ...    ...    ...    ...    ...
1  1 1 1 0  ... 1
1  1 1 1 1  ... 1
1  1 0 1 1  ... 0
0  0 0 0 0  ... 1
1  0 1 0 1  ... 0
其中因变量y为是否患病，自变量x为基因类型（共有1000种不同基因），在回归模型中每次仅使用一个自变量xi对y进行回归，以判断其是否对y有显著影响（当然还有其它控制变量，从略），故需要做1000次logit回归。回归结束后，需要将对y没有有显著性影响（5%显著水平）的变量xi删除，将有显著性影响的xi列成一个表，并标出其回归p值。
以上过程的运算量很大，手工难以完成，需要运用stata编程才行解决。在下从未用stata编过类似程序，束手无策，恳请版上的stata高手花些时间提供一下参考程序，万分感谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

voodoo

2009-7-7 22:15:02

试试：

// 生成模拟数据库
clear
set obs 100
gen y = rbinomial(1, 0.1)       // 因变量
forv i = 1/50 {             // 50个自变量x1...x50
      gen x`i' = rbinomial(1, 0.2)
}
gen ctrl_var = rbinomial(1, 0.2)       // 控制变量ctrl_var

gen obs = _n
reshape long x, i(obs) j(eq)       // reshape以运用Stata的statsby命令储存回归结果
sort eq obs
drop obs

statsby b_x = _b[x] se_x = _se[x], by(eq) saving(result): logit y x ctrl_var
use result, clear
list in 1/50, clean       // eq编号依次代表x1、x2 ...
gen z = b_x/se_x
gen p = 2*normal(-abs(z))
save result, replace
keep if p <= 0.05
list, clean       // 当然在随机模拟数据中50个回归方程中没有一个x的系数是显著的
save result, replace