连老师,我是yellowriver, 又来麻烦您了!
以下数据集含病人的家庭背景信息,血压,服药情况和是否是健康俱乐部会员等,变量有:id(10人), gender(0/1), birth_year,race, membership(健康俱乐部会员,0/1),bp(血压值), 部分病人有服药(有服药drug=1,没服药drug=0)drug_date: 开始用药的时间; drug_type: IN/MET/TBE三种药
input id gender birth_year str8 race member bp drug str10 drug_date str3 drug_type
1 0 1985 Asian 1 134 1 "02/13/2006" IN
2 1 1984 White 0 125 0 . .
3 1 1963 Black 1 143 1 "01/17/2005" MET
4 0 1972 White 0 153 1 "02/15/2006" TBE
5 0 1989 Asian 1 132 1 "03/01/2007" IN
7 1 1978 Asian 1 135 0 . .
8 0 1958 White 1 142 0 . .
9 1 1968 Black 1 135 1 "04/01/2007" MET
10 1 1978 White 0 136 1 "03/21/2005" IN
end
1. 创建一个新变量服药的时长drug_time(现在日期减去drug_date开始服药的时间,但表示成“年”的形式,要不然数据值很大,缺失值的话为0年)
2. 我会在data cleaning时把字符变量都转成数值变量,比如给Asian/White/Black赋值为1,2,3, 给drug_type赋值为1,2,3.
但如何分别比较是否加入健康俱乐部(member),是否服药(drug), 服药种类(drug_type) 这三个因素有没有带来病人血压值bp上的差异?(用什么统计方法? 能否简略code提示)
3. 看看其他因素,比如性别,种族,年龄,有没有和问题2中变量一起带来病人血压值bp上的差异? (用什么统计方法? 能否简略code提示)
4. 现在我还有9个和以上数据集trial1一样的结构和变量名的数据集,trial2, trial3....trial 10, 如何写一段macro, 来让以上的code自动地作用于其他9个数据集trial*
万分感谢!