众所周知,如果我们做一种检验,比如说用log-rank做生存分析,如果原来样本量是200,统计p值是>0.05的,我们把这些样本复制一份或者多份,假如2份吧,现在样本是600,那么p值就可能变成<0.05。
在我的研究中,比较组A与组B之间的生存差异,涉及到样本量的变化,检验一开始是10000例假设A组与B组都是5000例,p值是<0.001的,根据需要我要根据“特定条件”(比如说年龄)逐步删除一些病例(比如说逐步删除年龄小于N的;N在每一步都减小),同时不断的做log-rank检验,举例来说,第二次检验取年龄<50的,样本量是9000,p还是<0.001;到了第5次检验取年龄<40,样本量变成了4000,p值开始>0.05;到了最后第9次检验p值已经很大,比如说是0.87。
我的问题是,我这样的实验是否存在偏倚?在这个例子中,1)这种p值的变化到底是否是由于在不同年龄组,组A和组B生存差异存在不同?(即:“当病例年龄够小,组A和组B生存差异不明显”)还是单单就是由于:2)样本量小了,所以P值变大了,变得越来越大?
到底因素1)和2)哪个影响了结果呢,应该是共同影响的吧,但是,我如何能够排除因素2)的干扰呢?求教各位高手,有没有这样的统计学方法?
我的一些设想:
1)如果我在每步都进行随机抽样,比如说第一步从10000例中随机抽1000,第二步从9000例随机还是抽1000…………这样保证了每次检验样本量都是一致的,这样是否可行呢?
2)如果我在每步都随机的复制N份,比如说20000,这样也保证了,每次检验样本量是一样的,这样是否可行呢?
3)是不是什么Bootstrap,或是什么permutation test可以解决我的问题?
个人是学临床医学的,统计学只懂皮毛,可能一些想法挺可笑的。在这里都说出来,真心求教高手,给出一点建议就可以,不想耽误大家时间。多多感谢!