关于样本量对于p值的影响，求教高手

11839

收藏 2011-04-09

众所周知，如果我们做一种检验，比如说用log-rank做生存分析，如果原来样本量是200，统计p值是>0.05的，我们把这些样本复制一份或者多份，假如2份吧，现在样本是600，那么p值就可能变成<0.05。
在我的研究中，比较组A与组B之间的生存差异，涉及到样本量的变化，检验一开始是10000例假设A组与B组都是5000例，p值是<0.001的，根据需要我要根据“特定条件”（比如说年龄）逐步删除一些病例（比如说逐步删除年龄小于N的；N在每一步都减小），同时不断的做log-rank检验，举例来说，第二次检验取年龄<50的，样本量是9000，p还是<0.001；到了第5次检验取年龄<40，样本量变成了4000，p值开始>0.05；到了最后第9次检验p值已经很大，比如说是0.87。
我的问题是，我这样的实验是否存在偏倚？在这个例子中，1）这种p值的变化到底是否是由于在不同年龄组，组A和组B生存差异存在不同？（即：“当病例年龄够小，组A和组B生存差异不明显”）还是单单就是由于：2）样本量小了，所以P值变大了，变得越来越大？
到底因素1）和2）哪个影响了结果呢，应该是共同影响的吧，但是，我如何能够排除因素2）的干扰呢？求教各位高手，有没有这样的统计学方法？
我的一些设想：
1）如果我在每步都进行随机抽样，比如说第一步从10000例中随机抽1000，第二步从9000例随机还是抽1000…………这样保证了每次检验样本量都是一致的，这样是否可行呢？
2）如果我在每步都随机的复制N份，比如说20000，这样也保证了，每次检验样本量是一样的，这样是否可行呢？
3）是不是什么Bootstrap，或是什么permutation test可以解决我的问题？

个人是学临床医学的，统计学只懂皮毛，可能一些想法挺可笑的。在这里都说出来，真心求教高手，给出一点建议就可以，不想耽误大家时间。多多感谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

gaokaji16

2011-4-9 18:22:42

自己顶起，继续求教高手

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群