全部版块 我的主页
论坛 经济学人 二区 外文文献专区
932 12
2022-05-07
英文标题:
《One- and two-sample nonparametric tests for the signal-to-noise ratio
  based on record statistics》
---
作者:
Damien Challet
---
最新提交年份:
2015
---
英文摘要:
  A new family of nonparametric statistics, the r-statistics, is introduced. It consists of counting the number of records of the cumulative sum of the sample. The single-sample r-statistic is almost as powerful as Student\'s t-statistic for Gaussian and uniformly distributed variables, and more powerful than the sign and Wilcoxon signed-rank statistics as long as the data are not too heavy-tailed.   Three two-sample parametric r-statistics are proposed, one with a higher specificity but a smaller sensitivity than Mann-Whitney U-test and the other one a higher sensitivity but a smaller specificity. A nonparametric two-sample r-statistic is introduced, whose power is very close to that of Welch statistic for Gaussian or uniformly distributed variables.
---
中文摘要:
介绍了一类新的非参数统计,即r统计量。它包括计算样本累积和的记录数。对于高斯和均匀分布变量,单样本r统计量几乎与Student的t统计量一样强大,只要数据不是太重尾,它就比符号和Wilcoxon符号秩统计量更强大。提出了三种双样本参数r统计量,一种比Mann-Whitney U检验具有更高的特异性但敏感性较小,另一种具有更高的敏感性但特异性较小。介绍了一种非参数双样本r统计量,它的幂函数非常接近于高斯或均匀分布变量的Welch统计量。
---
分类信息:

一级分类:Statistics        统计学
二级分类:Methodology        方法论
分类描述:Design, Surveys, Model Selection, Multiple Testing, Multivariate Methods, Signal and Image Processing, Time Series, Smoothing, Spatial Statistics, Survival Analysis, Nonparametric and Semiparametric Methods
设计,调查,模型选择,多重检验,多元方法,信号和图像处理,时间序列,平滑,空间统计,生存分析,非参数和半参数方法
--
一级分类:Physics        物理学
二级分类:Physics and Society        物理学与社会
分类描述:Structure, dynamics and collective behavior of societies and groups (human or otherwise). Quantitative analysis of social networks and other complex networks. Physics and engineering of infrastructure and systems of broad societal impact (e.g., energy grids, transportation networks).
社会和团体(人类或其他)的结构、动态和集体行为。社会网络和其他复杂网络的定量分析。具有广泛社会影响的基础设施和系统(如能源网、运输网络)的物理和工程。
--
一级分类:Quantitative Finance        数量金融学
二级分类:General Finance        一般财务
分类描述:Development of general quantitative methodologies with applications in finance
通用定量方法的发展及其在金融中的应用
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-5-7 15:32:58
基于记录统计的信号噪声比的一个和两个样本非参数测试Damien Challet1,2澳大利亚数学研究所,CentraleSup elec,92295 Ch^atenay Malabry CEDEX,Francencelade Capital SA,EPFL创新园,瑞士洛桑1015号,2018年摘要介绍了一个新的非参数统计家族,r-统计。它包括计算样本累积和的记录数。对于高斯和均匀分布变量,单样本r统计量几乎与Student的t统计量一样强大,只要数据不太重尾,它就比符号和Wilcoxon符号秩统计量更强大。本文提出了三种两样本参数r-统计量,一种比Mann-Whitney U-Test具有更高的特异性,但灵敏度较小,另一种具有更高的灵敏度,但特异性较小。介绍了一种非参数双样本r统计量,它的幂函数非常接近于高斯或均匀分布变量的韦尔奇统计量。关键词:非参数统计、信噪比、统计功率、AUC、记录统计1简介非参数统计在数据分析中发挥着特殊作用,因为它们通常更稳健,对基础数据分布的假设更少[1]。众所周知的非参数统计,例如单样本的符号和Wilcoxon符号Rankf,以及两个样本的Mann-Whitney U-统计,对于高斯或均匀分布变量,其功能远不如参数t-或Welch统计,而对于厚尾数据,则相反。在这里,我提出了一种新的非参数统计,称为r-统计,对于高斯变量,它几乎与t-和Welch统计一样强大,对于不太厚尾的变量,它比所有这些都更强大。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 15:33:01
因此,他们提供了一个强有力的替代常规统计数据的方法。让我们写下t统计量的定义,作为引入有用符号的一种方式。取感兴趣量的N个值的样本,用{xn}表示,N=1,···,N,假设为独立同分布(iid)。用帽子表示估计,样本的t统计量为^t=^θ√n其中,θ=μ/σ是其估计的信噪比(此后的信噪比),μ是其估计的平均值,σ是其估计的标准偏差。常用的非参数统计的稳健性部分是由于它们将样本值减少为整数,如ranksand符号,从而计算统计。同样的方法是基于定义为ξN={Xt}1的样本值的累积量(或相当于积分信号)的(整数)记录数的统计≤T≤nxt=Ptn=1xn,1≤ T≤ N.如果x的分布有一个零平均值,那么x就是t时刻无偏随机游走者的位置。一个基于Sparre-Andersen定理[2]的显著结果表明,在N步中上层记录数(或相当于运行最大值的跳跃数)的分布,用R+表示,不依赖于xnas的分布,只要它是对称的(即x和-x是等概率的,是连续的,样本值是不相关的[3];请注意,起始点始终被视为第一个上(和下)记录(见图1)。此外,这个分布是已知的:P(R+,N)=2N- R++1N/22N-R++1,(1)趋于高斯分布N(p4N/π,(4)- 2/π)N)对于大N[3]。出于对称性原因,较低记录的数量(即运行最小值的跳数)用R表示-, 遵循相同的分布。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 15:33:05
这一结果催生了许多关于所谓记录统计的研究(参见[4]了解areview)。2单样本统计即使单样本统计在统计学中是一个广受欢迎的领域,但在投机性交易或敌友识别等竞争情况下,使用更为强大的统计数据提供了宝贵的优势。单样本非参数统计的一个问题是,对于高斯或均匀分布变量,它们不如t统计量强大。r统计量在保持稳健的同时解决了这个问题。请注意,SparreAndersen的对称分布假设与Wilcoxon signedrank统计量相同。到目前为止,R+和R-有两个参数作为统计数据:首先,它们的下限为零,因此根据它们的差异R=R设计统计测试要容易得多+- R-. 上面的数字123456-4.-2 0 2 4 6样本数数值置换累积性UM累积性UM累积性UM累积性UMPermutation+=3R-=2}R+=3R-=4}R+=2R-=4}R0=-2/3R-零点三零零五一二三四五六-4.-2 2样本编号值2 3 4 60 2 4 6 t累计总和6-4.-2 0 2 4 6样本编号值0 1 2 3 4 5 6-4.-3.-2.-1 1 2 3累计金额0 1 2 3 4 5 6-1 01 2 3 4 5 6累积总和图1:r-统计背后思想的示意图解释:计算样本值累积和的最大跳跃次数(虚线)和最小跳跃次数(虚线)之间的差异,在许多随机排列上求平均值。按照惯例,第一个点算作运行最大值和最小值的第一跳。r统计量r\'0.3005只是r/σN,其中σN\'1.97表示N=6(见等式。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 15:33:08
(2)).对xnHa的记录有一个简单的解释:R+只不过是xnA不处于下降状态(即不低于其运行最大值)的时间步数。因此,数量R+-R-是在缩编中花费的时间减去在缩编中花费的时间。其次,Ris定义为整数,这可能对统计能力和效率都有害。关键的新想法是要注意,对于iiddata xn,任意{xn}随机排列的积分信号与xn一样有效。因此,我们可以计算P上的平均记录数 1随机排列,用¨R表示。图1以图形方式解释了这个想法。为了便于阅读,让我们简单地写下以下内容。通过定义,Rc的分布趋于零平均值的高斯分布。由于给定随机游动的上下记录的数量以未知的方式相互关联,因此必须暂时用数值测量¨R分布的标准偏差,用σN表示。大量的数值模拟(见附录A)表明σN=1.66(1- 0.88N-1/2)p(2)- 4/π)N,因此单样本r统计量定义为r=R1。66(1 - 0.88N-1/2)p(2)- 4/π)N.(2)渐近P(r)→ N[0,(σN)],但收敛到高斯分布相当缓慢。例如,P(R)是高斯分布,N=1000时,最大有2个标准偏差(见附录A);因此,就目前而言,为了建立一个统计量测试,我们必须借助于对P(R)的分布进行数值估计,并使用它来获得P值。计算速度很快(并且有完整的源代码)。评估单样本r统计量的功效需要分别估计θ=0和备选θ6=0的P(r),然后计算r统计量的接收机工作特性(ROC)曲线[5]。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 15:33:11
附录B中报告了r-、t-、符号和Wilcoxon符号秩和统计的ROC曲线。r-统计的ROC曲线不与其他统计的ROC曲线交叉,因此曲线下面积(AUC)是ROC曲线中测量的统计功率的标量汇总(越大越好),对于比较r-统计与其他统计的功率是有意义的。让我们从高斯变量开始。在这种情况下,T统计量的作用是一致的[6],因此人们认为它的AUC是最大的。图2显示,对于高斯变量(众所周知),虽然符号和威尔科克森统计量远不如t统计量强大,但r统计量的威力与t统计量几乎相同。均匀分布的变量会导致类似的结果(相同的图)。一般来说,r统计量相对于符号统计量和Wilcoxon统计量的相对威力随着数据的尾部变重而减小。图3显示了这一点,其中报告了AUC与学生t分布的尾部参数ν(用作获取重尾数据的参数方法)的对比。对于ν\'2.5,Wilcoxon统计量变得比r统计量更强大,而。50.60.70.80.90.00 0.05 0.10 0.15 0.20 NRAUC统计学。50.60.70.80.90.00 0.05 0.10 0.15 0.20SNR曲线下面积统计图2:曲线下面积(AUC)与备选方案信噪比θ=u/σ;N=100,每点10000个样本,10000个随机排列样本。误差条设置为两个标准偏差。连续的线条仅用于视线引导。当ν<3.5时,符号统计获胜。对于指数分布变量(相同的图形),也发现了同样的行为,在这种情况下,符号统计优于R统计。r统计量的一个假设是,增量的平均值为零,但这并不能说明替代值是什么。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群