本人新手,要用某城市全部6,000,000居民的病例,做回顾性队列研究,研究某因素A与疾病B的关系。
实验设计是将6,000,000中有因素A(n个:a1、a2…an)的找出来作为暴露组,接下来按照匹配标准(性别、年龄一致)选择对照组,方案有如下4个。暴露组中患B病的有m个,分别计算暴露组与对照组B的患病率,为f1,f0,算出RR=f1/f0。其中f1=m/n.
方案一:
从6,000,000中按匹配标准获得与a1…an分别匹配的组,分别计算每组的患病率(患B病的个数/组中人数),再求平均获得f0.
方案二:
从6,000,000-n(即非暴露组)中按匹配标准获得与a1…an分别匹配的组,分别计算每组的患病率(患B病的个数/组中人数),再求平均获得f0.
方案三:
从6,000,000中按匹配标准随机抽样nxN,对a1…an分别获得匹配的N个(1:N匹配),即得到N个对照组,计算N个组的患病率再求平均得到f0.
方案四:
从6,000,000-n(即非暴露组)中按匹配标准随机抽样nxN,对a1…an分别获得匹配的N个(1:N匹配),即得到N个对照组,计算N个组的患病率再求平均得到f0.
我的问题是:
我不知道应该选择哪个方案,我看的文章上是先说用方案三,又说计算量太大,选了方案一。而我觉得方案二和四也有道理,觉得应该暴露与非暴露对照。其实我也不知道用哪个,是否每个都不对,或是每个都可以用,但精确度或解释不一样??另外,P值怎么算?
若哪个方案可以选择,请解释对应方案;若都可以,请比较相关方案;若都不对,请说出自己的观点。
还有,这里是大样本,是不是同一般实验的方法有别?