全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1665 29
2022-06-24
英文标题:
《Detecting p-hacking》
---
作者:
Graham Elliott, Nikolay Kudrin, Kaspar Wuthrich
---
最新提交年份:
2021
---
英文摘要:
  We theoretically analyze the problem of testing for $p$-hacking based on distributions of $p$-values across multiple studies. We provide general results for when such distributions have testable restrictions (are non-increasing) under the null of no $p$-hacking. We find novel additional testable restrictions for $p$-values based on $t$-tests. Specifically, the shape of the power functions results in both complete monotonicity as well as bounds on the distribution of $p$-values. These testable restrictions result in more powerful tests for the null hypothesis of no $p$-hacking. When there is also publication bias, our tests are joint tests for $p$-hacking and publication bias. A reanalysis of two prominent datasets shows the usefulness of our new tests.
---
中文摘要:
我们从理论上分析了基于跨多个研究的$p$值分布的$p$黑客测试问题。我们提供了在无$p$-黑客攻击为空的情况下,此类发行版具有可测试限制(非递增)的一般结果。我们发现了基于$t$测试的$p$值的新的额外可测试限制。具体而言,幂函数的形状导致完全单调性以及$p$-值分布的界。这些可测试的限制导致对无美元黑客攻击的无效假设进行更有力的测试。当存在出版偏见时,我们的测试是针对$p$-黑客攻击和出版偏见的联合测试。对两个重要数据集的再分析显示了我们新测试的有用性。
---
分类信息:

一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--
一级分类:Economics        经济学
二级分类:General Economics        一般经济学
分类描述:General methodological, applied, and empirical contributions to economics.
对经济学的一般方法、应用和经验贡献。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--

---
PDF下载:
-->
Detecting_p-hacking.pdf
大小:(648.17 KB)

 马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-24 04:51:14
检测p-hacking*Graham Elliott+Nikolay KudrinKaspar W¨uthrich§2021年5月26日摘要我们从理论上分析了基于多个研究中p值分布的p-hacking测试问题。我们提供了在无p-hacking为空的情况下,此类分布具有可测试限制(非递增)的一般结果。我们发现了基于t-检验的新的可测试pvalues限制。具体而言,幂函数的形状导致p值分布的完全单调性和界。这些可测试的限制导致对无p-hacking的空假设进行更强大的测试。当存在出版偏见时,我们的测试是针对P黑客和出版偏见的联合测试。对两个重要数据集的重新分析显示了我们新测试的有用性。关键词:p值,p曲线,完全单调性,发表偏倚*我们感谢Brendan Beare、Gregory Cox、Bulat Gafarov、Xinwei Ma、Ulrich M¨uller、Christoph Rothe、Yixiao Sun、编辑(Guido Imbens)、匿名裁判、新加坡国立大学、剑桥大学、伊利诺伊大学Urbana Champaign、曼海姆大学的研讨会参与者,以及2019年加利福尼亚计量经济学会议、2019年CEME青年计量经济学家会议和2019年SEA年终会议的与会者,以获取宝贵意见。K、 W.还与CESifo andifo研究所合作。通常的免责声明适用。+加利福尼亚大学圣地亚哥分校经济系,9500 Gilman Dr.La Jolla,CA92093。电子邮件:grelliott@ucsd.edu加利福尼亚大学圣地亚哥分校经济系,9500 Gilman Dr.La Jolla,CA92093。电子邮件:nkudrin@ucsd.edu§加利福尼亚大学圣地亚哥分校经济系,9500 Gilman Dr.La Jolla,CA92093。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 04:51:18
电子邮件:kwuthrich@ucsd.edu1简介研究人员探索各种分析和处理数据的方法,然后有选择地报告产生更好结果的方法的能力,通常被称为p-hacking,这会损害研究的可靠性,并破坏报告结果的科学可信性。在缺乏系统复制研究或荟萃分析的情况下,评估p-hacking程度的一种流行方法是检查研究中p值的分布,称为p曲线(Simonsohn et al.,2014);请参阅Christensen和Miguel(2018)中的第2节,以了解评论。我们考虑了无p-hacking的无效假设与p-hacking的替代假设的检验问题,并为p-hacking的检验提供了理论基础。在一般假设下,我们分析了在没有p-hacking的情况下隐含的p值分布的零集,并提供了一般有效条件,在此条件下,对于真实效应的任何分布,p曲线在没有p-hacking的情况下是不增加和连续的。这些条件被证明适用于许多但并非所有流行的效果测试方法。对于p曲线基于t检验的主要情况,我们推导出了其他先前未知的可测试限制。具体而言,在没有p-hacking的情况下,基于t-检验的p-曲线是完全单调的,其大小及其导数的大小受到上界的限制。当p-hacking无法诱导增加的p曲线时,这些限制尤其有用,例如当研究人员在独立测试中进行规范搜索时。在这种情况下,基于非递增性的测试没有力量。我们的理论结果允许我们为phacking开发更强大的统计测试,我们将其应用于两个大型p值数据集。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 04:51:21
在现有测试不拒绝无p-hacking的空值的情况下,我们发现了p-hacking的证据。当存在发表偏倚时,我们的结果在无p-hacking和无发表偏倚的完全假设下刻画了p曲线。我们的测试成为针对p-hacking和发布偏差的联合测试,补充了识别发布偏差的可用方法(参见Andrews和Kasy,2019年及其参考文献)。例如:Masicampo和Lalande(2012)、Leggett等人(2013)、Simonsohn等人(20142015)、Head等人(2015)、de Winter和Dodou(2015)以及Snyder和Zhuo(2018)。文献中的另一种方法是使用t-统计分布来测试p-黑客攻击(例如,Gerber和Malhotra,2008;Brodeur等人,2016b,2020;Bruns等人,2019;Vivalt,2019)。2基于一般测试的p曲线我们提供了在无p-hacking的零假设下p曲线不递增的一般有效条件。这些结果很有用,因为p黑客测试通常假设p曲线不递增(例如,Simonsohn et al.,2014,2015;Head et al.,2015)。这一假设已通过分析和数值例子得到证实,这些例子依赖于测试的具体选择和被测试的真实效应分布(例如,Hung等人,1997;Simonsohn等人,2014;Ulrich and Miller,2018)。然而,这种分析不足以保证p-hacking统计测试的规模控制,因为真正的效果分布永远不知道。相反,在广泛的应用中,尺寸控制所需的是对一般测试和效应分布的p曲线形状进行表征。2.1设置考虑根据累积分布函数(CDF)Fh的分布分布分布的检验统计量T,其中h为检验的精确分布或渐近分布的参数建立索引。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 04:51:24
我们假设参数h只包含感兴趣的参数。这适用于具有足够大样本和渐近关键测试统计数据的设置,这在应用研究中很普遍。假设研究人员正在测试假设:h∈ Hagainst H:H∈ H、 (1)其中H∩ H=. 设H=H∪ H、 用F表示chosennull分布的CDF,从中确定临界值。我们假设testrejects用于测试统计的大值,并将levelp测试的临界值表示为cv(p)。我们将重点关注具有连续且严格递增F的设置(见下面的假设1),并设置cv(p)=F-1(1 - p) 。对于任何h,我们用β(p,h)=Pr(T>cv(p)| h)=1表示- Fh(cv(p))参数为h的p级试验的拒收率。对于h∈ H、 这是测试的幂,我们将β(p,H)称为幂函数。对于本文的其余部分,我们将重点关注生成p值的测试满足假设1的设置。这使我们能够使用定义良好的densityfunction并提供一般结果。假设1(规律性)。F和fh是两次连续可微的,具有一致有界的一阶和二阶导数F、F、fh和fh。f(x)>0表示所有x∈ {cv(p):p∈ (0, 1)}. 对于h∈ H、 SUP(f)=SUP(fh)。假设1适用于许多具有参数F和Fh的测试,包括t测试和Wald测试。假设1的一个必要条件是Fand Fh的绝对连续性。这不是太严格,因为在许多情况下,F和FH是通常满足此条件的检验统计量的渐近分布。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 04:51:27
此外,在测试统计数据具有离散分布的情况下,大小通常不相等,这可能导致违反非递增性的p曲线。考虑研究中p值的分布,我们从给定h值的T分布计算Pv值,其本身由概率分布∏得出。我们将∏称为真实效果的分布。p值的cdf为g(p)=ZHPr(T>cv(p)| h)d∏(h)=ZHβ(p,h)d∏(h)。(2) 在假设1下,定义p曲线如下。定义1(P曲线)。p值的密度,即p曲线,定义为asg(p):=ZHβ(p,h)pd∏(h)。在第2.2节中,我们分析了一般测试和分布∏的g形状。2.2 p-曲线的性质基于一般测试,我们推导出了在没有p-hacking的情况下,p-曲线对于任何真实效果分布都不增加的条件。我们证明了这个性质适用于大多数但并非所有流行的统计测试。在假设1下,p曲线的曲率遵循g(p):=dg(p)dp=ZHβ(p,h)pd∏(h)。g(p)的符号由拒绝概率的二阶导数确定,β(p,h)/p、 正如我们将在下面定理1的证明中所示,以下条件意味着β(p,h)/所有h的pis均为非阳性∈ H、 对于函数Д,我们将supp(Д)定义为{x:Д(x)6=0}的闭包。假设2(有效条件)。对于所有(x,h)∈ {cv(p):p∈ (0,1)}×H,fh(x)f(x)≥ f(x)fh(x)。假设2是对临界值变化时幂函数如何变化的限制,这取决于密度的形状。当H={0}和F=F时(例如,对于单侧t检验),假设2的形式为阿莫诺酮似然比性质,它将零下t的密度形状与备选方案H下t的密度形状联系起来。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群