全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1791 10
2022-05-11
英文标题:
《A Short Note on P-Value Hacking》
---
作者:
Nassim Nicholas Taleb
---
最新提交年份:
2018
---
英文摘要:
  We present the expected values from p-value hacking as a choice of the minimum p-value among $m$ independents tests, which can be considerably lower than the \"true\" p-value, even with a single trial, owing to the extreme skewness of the meta-distribution.   We first present an exact probability distribution (meta-distribution) for p-values across ensembles of statistically identical phenomena. We derive the distribution for small samples $2<n \\leq n^*\\approx 30$ as well as the limiting one as the sample size $n$ becomes large. We also look at the properties of the \"power\" of a test through the distribution of its inverse for a given p-value and parametrization.   The formulas allow the investigation of the stability of the reproduction of results and \"p-hacking\" and other aspects of meta-analysis.   P-values are shown to be extremely skewed and volatile, regardless of the sample size $n$, and vary greatly across repetitions of exactly same protocols under identical stochastic copies of the phenomenon; such volatility makes the minimum $p$ value diverge significantly from the \"true\" one. Setting the power is shown to offer little remedy unless sample size is increased markedly or the p-value is lowered by at least one order of magnitude.
---
中文摘要:
我们将p值黑客攻击的预期值作为$m$独立测试中最小p值的选择,由于元分布的极端偏斜,该值可能会大大低于“真实”p值,即使是单次试验。我们首先给出了统计上相同现象集合中p值的精确概率分布(元分布)。我们推导了小样本$2<n\\leq n^*\\约30$的分布,以及样本量$n$变大时的极限分布。我们还通过给定p值的逆分布和参数化来研究测试的“幂”性质。这些公式允许调查结果复制的稳定性和“p-hacking”以及元分析的其他方面。结果表明,无论样本大小为$n$,P值都是极为偏斜和不稳定的,并且在相同的随机复制下,完全相同的协议重复之间差异很大;这种波动性使得美元兑便士的最低价值与“真实”价值存在显著差异。结果表明,除非样本量显著增加或p值降低至少一个数量级,否则设置功率几乎不能提供补救措施。
---
分类信息:

一级分类:Statistics        统计学
二级分类:Applications        应用程序
分类描述:Biology, Education, Epidemiology, Engineering, Environmental Sciences, Medical, Physical Sciences, Quality Control, Social Sciences
生物学,教育学,流行病学,工程学,环境科学,医学,物理科学,质量控制,社会科学
--
一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-5-11 02:51:18
FAT TAILS研究项目关于P值黑客攻击的简短说明Nassim Nicholas TalebTandon工程学院摘要:我们将P值黑客攻击的预期值作为m个独立测试中最小P值的一个选择,由于梅塔分布的极端偏斜,该值可能远低于“真实”P值,即使是单次测试。我们首先给出了统计上相同现象集合中p值的精确概率分布(元分布)。我们推导了小样本2<n的分布≤ N*≈ 30以及随着样本量的增加而出现的限制。我们还通过给定p值的逆分布和参数化来研究测试的“幂”性质。这些公式允许调查结果产生的稳定性和“p-hacking”以及梅塔分析的其他方面。结果表明,无论样本大小n如何,P值都是极为偏斜和不稳定的,并且在相同随机复制的现象下,在完全相同的协议重复中差异很大;这种波动性使得最小p值与“真实”值相差很大。除非样本量显著增加或p值降低至少一个数量级,否则设置功率几乎没有什么补救措施。P值黑客攻击,就像一个期权或凸收益类中的其他成员一样,是一个受益于潜在方差和更高动量可变性的函数。研究人员或研究小组有选择权在m个试验中选择最有利的结果,而不透露尝试的次数,因此我们对最终结果的了解往往比现实更乐观。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-11 02:51:21
最小p值和“可选性”的分布可以用一个简洁的公式表示,以便于理解科学研究中的偏见,尤其是在出版压力大的环境下。假设我们知道“真实”的p值,ps,那么在对这些现象的统计和识别副本进行的各种尝试中,它的实现会是什么样的呢?所谓真值ps,我们指的是它的期望值,根据大数定律,它是一个可能的样本集合,用于研究下的现象,即ismP≤mpiP-→ ps(其中P-→ 表示概率收敛)。对于相应的“真中值”pM,也可以进行类似的收敛性论证。n个小样本的分布可以明确表示(尽管有特殊的反函数),以及n个大样本的简约限制分布,除了主题值pM没有其他参数。我们无法得到一个明确的FORPs形式,但我们使用了中值。事实证明,正如我们在图3中所看到的那样,分布是非常不对称的(右倾),以至于75%的“真实”p值的实现将小于0.05(底线情况是通过给定协议的可能性比失败的可能性高3倍),更糟糕的是,第二版(2018年1月,第一版)的真实p值的60%是2015年3月。2 4 6 8 10 12 14m试验0。020.040.060.080.10预计最小p值。1.m次试验的“p-hacking”值为“真”中值p-valuepM=.15和预期的“真”值ps=.22。通过少量试验,我们可以观察到easilyone如何达到虚假值<.02。n=5n=10n=15n=20n=250.00 0.05 0.10 0.15 0.20p246810PDFFig。2.eq的不同值。1.向有限分布收敛。。12将低于0.05。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-11 02:51:24
这意味着研究人员进行了认真的游戏和“恶作剧”,即使在适度的重复实验下也是如此。虽然具有紧凑的支撑,但分布显示出极端厚尾的特性。对于观测到的p值,例如,.02,“真实”p值可能大于.1(很可能接近.2),标准偏差大于.2(sic),平均偏差约为.35(sic,sic)。由于过度偏斜,土地L(以及更高的标准)中的分散度测量值与PS几乎不存在差异,因此标准偏差不成比例,这意味着样本中存在偏差。01 p值具有显著的概率,具有>真值。N.N.Taleb 1关于尾部研究项目,很明显,当我们谈论p值时,我们不知道我们在谈论什么。文献中对显式元分布的早期尝试在[1]和[2]中发现,尽管是在高斯从属和不太节俭的参数化情况下。[3]中讨论了所谓“统计显著性”的显著性问题的严重性,并在[4]中通过贝叶斯方法提供了补救措施,这实际上建议将标准收紧至p值≈ .01.但p值分布极端偏斜的严重性只有在观察元分布时才明显。对于表示法,我们用n表示给定研究的样本量,用m表示得出p值的试验次数。I.推导P值的元分布建议1。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-11 02:51:27
设P为随机变量∈ [0,1])对应于从配对T检验统计量(未知方差)得出的样本单尾p值,中值为m(p)=pM∈ [0,1]来自n个大小的样本。样本在统计上相同的样本集合中的分布具有以下特征:PDF~n(p;pM)=(ρ(p;pM)lf或p<~n(p;pM)hf或p>~n(p;pM)L=λ(-N-1) ps-λp(λpM)- 1) (λp)- 1) λpM- 2p(1)- λp)λpp(1)- λpM)λpM+1λp-√1.-λp√λpM√λp√1.-λpM+1-λpM- 1.n/2~n(p;pM)H=1.- λp(-N-1)λp- 1.(λpM)- 1) λp(-λpM)+2q1.- λpλpp(1)- λpM)λpM+1n+1(1),其中λp=I-12便士N, λpM=I-11-下午2点,N, λp=I-12便士-1.,N, 而我-1(.)(., .) 是反β正则化函数。备注1。对于p=分布,理论上不存在,但在实践中确实存在,我们可以用序列pmk=±k来解决它,如图4中[0,1]上的图所示,收敛于均匀分布。还要注意的是,所谓的“零”假设实际上是一组度量值0。证据设Z是一个随机归一化变量,其实现ζ来自n个实现的向量v,样本均值为mv,样本标准偏差为sv,ζ=mv-mhsv√n(其中MH是测试所针对的水平),因此假设~ 学生有两个n个自由度,最重要的是,他们应该提供平均数为ζ,f(ζ;ζ)=n(°ζ)-ζ) +nn+1√nBN其中B(,)是标准的beta函数。让g(.)是具有零均值和n个自由度的Student T分布的单尾生存函数:g(ζ)=P(Z>ζ)=Inζ+nNζ ≥ 0Iζ+n,N+ 1.ζ<0,其中I(,)是不完全的Beta函数。我们现在寻找g的分布o f(ζ)。考虑到这一点是一个合法的Borel函数,将概率p命名为一个随机变量,我们有一个转换的标准结果:φ(p,\'ζ)=fg(-1) (p)|Gg(-1) (p)|由于Z的对称性,我们可以将ζ转换为相应的生存概率中值。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-11 02:51:30
由于观测值的一半落在¨ζ的两侧,我们可以确定变换是中值保持的:g(¨ζ)=,因此φ(pM,)=。因此我们最终得到了{ζ:Inζ+nN=pM}(阳性病例)和{ζ:Iζ+n,N+ 1.= pM}(阴性病例)。取而代之的是等式1和命题1。我们注意到n并没有显著增加,因为Pv值是根据标准化变量计算的(因此元分布的普遍性);一个高n对应于一个增加的收敛到高斯分布。对于大n,我们可以证明以下命题:命题2。在与上述假设相同的情况下,对于φ(.)的限制分布:画→∞ν(p;pM)=e-erfc-下午1点(2点)(erfc)-1(下午2点)-2erfc-1(2p))(2)其中erfc(.)是互补误差函数anderfc(.)-1相反。极限CDFΦ(.)Φ(k;pM)=erfcerf-1(1 - 2k)- erf-1(1 - 下午2点)(3) 证据。对于大n,Z=mvsv的分布√n是高斯分布的,以及单尾生存函数g(.)=erfcζ√, ζ(p)→√2erfc-1(p)。这种极限分布适用于具有未知假设样本方差的配对测试,因为该测试变为高斯变量,相当于当n较大时T检验(StudentT)收敛于高斯。N.N.Taleb 2FAT TAILS研究计划值(真实平均值)5%切入点中值~ 53%的变现<.05~25%的实现<.010.05 0.10 0.15 0.20p0。000.050.100.15PDF/Frequ。图3。单尾p值与期望值的概率分布。11由蒙特卡罗(直方图)生成,并用φ(.)(实线)。我们从具有给定属性的集合中抽取所有可能的子样本。分布的过度偏斜使得平均值远高于大多数观测值,因此产生了“统计意义”的错觉。。025.1.150.50.0 0.20.40.6 0.8 1.0p12345φ图4。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群