全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件
11839 1
2011-04-09
众所周知,如果我们做一种检验,比如说用log-rank做生存分析,如果原来样本量是200,统计p值是>0.05的,我们把这些样本复制一份或者多份,假如2份吧,现在样本是600,那么p值就可能变成<0.05。
在我的研究中,比较组A与组B之间的生存差异,涉及到样本量的变化,检验一开始是10000例假设A组与B组都是5000例,p值是<0.001的,根据需要我要根据“特定条件”(比如说年龄)逐步删除一些病例(比如说逐步删除年龄小于N的;N在每一步都减小),同时不断的做log-rank检验,举例来说,第二次检验取年龄<50的,样本量是9000,p还是<0.001;到了第5次检验取年龄<40,样本量变成了4000,p值开始>0.05;到了最后第9次检验p值已经很大,比如说是0.87。
我的问题是,我这样的实验是否存在偏倚?在这个例子中,1)这种p值的变化到底是否是由于在不同年龄组,组A和组B生存差异存在不同?(即:“当病例年龄够小,组A和组B生存差异不明显”)还是单单就是由于:2)样本量小了,所以P值变大了,变得越来越大?
到底因素1)和2)哪个影响了结果呢,应该是共同影响的吧,但是,我如何能够排除因素2)的干扰呢?求教各位高手,有没有这样的统计学方法?
我的一些设想:
1)如果我在每步都进行随机抽样,比如说第一步从10000例中随机抽1000,第二步从9000例随机还是抽1000…………这样保证了每次检验样本量都是一致的,这样是否可行呢?
2)如果我在每步都随机的复制N份,比如说20000,这样也保证了,每次检验样本量是一样的,这样是否可行呢?
3)是不是什么Bootstrap,或是什么permutation test可以解决我的问题?

个人是学临床医学的,统计学只懂皮毛,可能一些想法挺可笑的。在这里都说出来,真心求教高手,给出一点建议就可以,不想耽误大家时间。多多感谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2011-4-9 18:22:42
自己顶起,继续求教高手
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群