全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1289 14
2022-05-07
英文标题:
《Skewness and kurtosis analysis for non-Gaussian distributions》
---
作者:
Ahmet Celikoglu and Ugur Tirnakli
---
最新提交年份:
2014
---
英文摘要:
  In a recent paper [\\textit{M. Cristelli, A. Zaccaria and L. Pietronero, Phys. Rev. E 85, 066108 (2012)}], Cristelli \\textit{et al.} analysed relation between skewness and kurtosis for complex dynamical systems and identified two power-law regimes of non-Gaussianity, one of which scales with an exponent of 2 and the other is with $4/3$. Finally the authors concluded that the observed relation is a universal fact in complex dynamical systems. Here, we test the proposed universal relation between skewness and kurtosis with large number of synthetic data and show that in fact it is not universal and originates only due to the small number of data points in the data sets considered. The proposed relation is tested using two different non-Gaussian distributions, namely $q$-Gaussian and Levy distributions. We clearly show that this relation disappears for sufficiently large data sets provided that the second moment of the distribution is finite. We find that, contrary to the claims of Cristelli \\textit{et al.} regarding a power-law scaling regime, kurtosis saturates to a single value, which is of course different from the Gaussian case ($K=3$), as the number of data is increased. On the other hand, if the second moment of the distribution is infinite, then the kurtosis seems to never converge to a single value. The converged kurtosis value for the finite second moment distributions and the number of data points needed to reach this value depend on the deviation of the original distribution from the Gaussian case. We also argue that the use of kurtosis to compare distributions to decide which one deviates from the Gaussian more can lead to incorrect results even for finite second moment distributions for small data sets, whereas it is totally misleading for infinite second moment distributions where the difference depends on $N$ for all finite $N$.
---
中文摘要:
在最近的一篇论文[\\textit{M.Cristelli,a.Zaccaria和L.Pietronero,Phys.Rev.E 85,066108(2012)]中,Cristelli\\textit{et al.}分析了复杂动力系统的偏度和峰度之间的关系,并确定了两个非高斯性的幂律区,其中一个指数为2,另一个指数为4/3$。最后,作者得出结论,所观察到的关系是复杂动力系统中的普遍事实。在这里,我们用大量的合成数据测试了偏度和峰度之间的普遍关系,并表明它实际上不是普遍的,只是由于所考虑的数据集中的数据点很少。使用两种不同的非高斯分布,即$q$-高斯分布和Levy分布,对所提出的关系进行了测试。我们清楚地表明,如果分布的二阶矩是有限的,对于足够大的数据集,这种关系将消失。我们发现,与Cristelli等人关于幂律标度制度的主张相反,随着数据数量的增加,峰度饱和为单一值,这当然不同于高斯情况($K=3$)。另一方面,如果分布的二阶矩是无限的,那么峰度似乎永远不会收敛到一个值。有限二阶矩分布的收敛峰度值以及达到该值所需的数据点数量取决于原始分布与高斯情况的偏差。我们还认为,使用峰度来比较分布,以确定哪一个更偏离高斯分布,即使对于小数据集的有限二阶矩分布,也可能导致不正确的结果,而对于无限二阶矩分布,这是完全误导的,其中差分取决于所有有限的$N$。
---
分类信息:

一级分类:Physics        物理学
二级分类:Statistical Mechanics        统计力学
分类描述:Phase transitions, thermodynamics, field theory, non-equilibrium phenomena, renormalization group and scaling, integrable models, turbulence
相变,热力学,场论,非平衡现象,重整化群和标度,可积模型,湍流
--
一级分类:Physics        物理学
二级分类:Data Analysis, Statistics and Probability        数据分析、统计与概率
分类描述:Methods, software and hardware for physics data analysis: data processing and storage; measurement methodology; statistical and mathematical aspects such as parametrization and uncertainties.
物理数据分析的方法、软硬件:数据处理与存储;测量方法;统计和数学方面,如参数化和不确定性。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-5-7 05:03:49
非高斯分布的偏度和峰度分析Ahmet Celikoglu1,*Ege大学理学院物理系Ugur Tirnakli1,2,土耳其理论与应用物理研究所(ITAP)土耳其伊兹密尔统计力学与复杂性研究所Kaygiseki Mevkii,48740 Turunc,Mugla,Turla,Turla(日期:2014年12月4日)在最近的一篇论文[M.Cristelli,a.Zaccaria and L.Pietroniro,Phys.Rev.E 85,066108(2012)]中摘要,Cristelli等人分析了复杂动态系统的偏度和峰度之间的关系,并确定了两个非高斯幂律区域,其中一个以指数2为标度,另一个以指数4/3为标度。最后,作者得出结论,所观察到的关系是复杂动力系统中的普遍事实。在这里,我们用大量的合成数据测试了偏度和峰度之间的普遍关系,并表明它实际上不是普遍的,只是由于所考虑的数据集中的数据点很少。利用两种不同的非高斯分布,即q-高斯分布和Levy分布,对所提出的关系进行了检验。我们清楚地表明,如果d分布的二阶矩是有限的,对于足够大的数据集,这种关系将消失。我们发现,与Cristelli等人关于幂律标度制度的说法相反,随着数据数量的增加,峰度s饱和为单一值,这当然不同于高斯情况(K=3)。另一方面,如果分布的二阶矩是有限的,那么峰度似乎永远不会收敛到一个值。有限秒动量分布的收敛峰度值以及达到该值所需的数据点数量取决于原始分布与高斯情况的偏差。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 05:03:53
我们还认为,用峰度来比较分布与决定哪个更偏离高斯分布可能会导致不正确的结果,即使是对于小数据集的有限二阶矩分布,但对于所有有限N的有限二阶矩分布,差异取决于N,这是完全误导的。PACS数:05.20-y、 89.75。达,89.65。生长激素*艾哈迈特。celikoglu@ege.edu.tr+乌戈尔。tirnakli@ege.edu.trI.引言在19世纪的最后几十年里,W.F.R.Weldon在分析贝壳的演化和收集形态学数据时遇到了一个问题。这个数据集的分布不是高斯分布。这种情况在当时是不常见的,让人想起了一个重要的问题:这种偏离高斯分布的现象是由于数据收集错误造成的,还是进化真的如此之快?当皮尔逊提出这个问题时,引入峰度指数的故事就开始了。欲了解更多信息,请参阅[1]及其参考文献。皮尔逊在1905年[2]首次引入峰度后,峰度已成为许多教科书中广泛遇到的一个量。如今,有一种看法认为,峰度值越大,意味着与高斯分布的偏差越大。基于这种感知,两个非高斯分布相互比较。关于使用峰度,有一些常见的误解。德卡洛已经解决了其中一些误解及其解释[3]。各种误解和误解不仅从本科水平的教科书,而且从研究生水平的例子进行了讨论。在最近的一项工作中,Cristelliet等人研究了偏度和峰度之间的关系[4]。作者分析了三种不同的非高斯数据集。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 05:03:56
其中两个来自全球质心矩张量(CMT)和ISIDe(意大利目录)地震目录。对于第三组数据,他们关注的是标准普尔500指数的每日价格回报。用于分析数据集的程序是将数据划分为子样本,并使用S=σ“NNXi=1(xi)给出的这些量的标准定义,计算每个子样本窗口的偏度(S)和峰度(K)- u)#,(1)和k=σ“NNXi=1(xi- u)#,(2)其中N是数据点的数量,u是样本的平均值,σ是标准偏差。最大的数据集(财务数据)被划分为长度N=250的子样本,如[4]的图2所示,观察到峰度与偏度plo t的两种不同的幂律标度制度。在其中一种制度中,所有点都像幂律一样聚集,指数为2,即,点S=0和K=3周围的K=S+(3),这是有限高斯分布的特征值。式(3)中的常数项是差值K的下限- 虽然分布的形状会影响边界的值,但皮尔逊发现它大约为1。2000年,克拉森将这种关系转化为最终形式(K)- s≥189/125),这在等式(3)中,对于单峰分布[5]。在这个机制之外,偏度和峰度之间的关系是幂律关系,指数为4/3。[4]中给出的解释这种行为的论点如下。如果数据集中存在一个充分的极端事件,则该事件将主导总结,其他点的贡献可以忽略不计。因此,力矩近似为SN(x)- u)σ,(4)KN(x)- u)σ,(5)其中x是极端事件的值。从等式(4)可以很容易地发现(x- u)/σ (NS)1/3并使用等式中的表达式。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 05:03:59
(5) 幂律关系可以通过 N1/3S4/3。(6) 对于地震,N值为100,对于初始时间序列,N值为250[4]。在这一点上,应该问的关键问题是,这种行为是否仍然像9次增加一样。我们在这里的主要目的是测试[4]中普遍存在的偏度和峰度之间的关系,使用已知不是nGaussian的非常大的合成数据集。另一个目的是找到以下问题的答案:(i)任何两个非高斯分布之间的最大峰度值是否总是意味着与高斯分布的较大偏差?(ii)如果不是,那么我们如何比较两个不同的非高斯分布,并确定哪一个与高斯分布的偏差更大?二、q-高斯作为非高斯分布A。生成q-高斯分布文献中有不同的方法生成高斯分布。最流行和最著名的方法之一是Box-Muller方法[6]。另一方面,自然界中有许多复杂系统不呈现高斯分布。在文献中,在物理学、生物学、地球物理学、经济学等领域有几个实验、观测和模型系统的例子,它们表现出q-高斯分布。这些分布优化了非加性熵Sq,定义为Sq≡ (1 -皮奇)/(q- 1) 并且被认为是非扩展统计力学[7,8]的基础,并在→ 1.如果1<q<3,q-高斯分布是长尾非高斯分布,类似于经济的每日价格收益[9,10]以及地震的收益分布[11,12]。因此,为了达到上述目的,它们是非常好的候选者。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 05:04:02
已知这些分布对于1<q<5/3(5/3<q<3)有有限(有限)次矩。不用说,我们需要对Box-Muller方法进行推广,从中可以生成q-高斯分布。Thistleton等人于2007年进行了这一概括[13]。假设这些变量是从(0,1)定义的均匀分布中选择的独立随机变量。结果表明,两个随机变量Zand Zc可以定义为z≡Q-2 lnq′(U)cos(2πU)Z≡Q-2 lnq′(U)sin(2πU)(7),它们中的每一个都是标准的q-G aussian偏差,其特征是一个新的参数q,由q=3q′给出- 1q′+1。这里LNq是q对数,定义为LNq(x)≡x1-Q- 11- qx>0,(8)其逆称为q-指数,并以asexq为界≡[1 + (1 - q) x]1-q、 1+(1- q) x≥ 0,0,否则。(9) 最后,我们可以定义q-高斯分布asp(x;uq,σq)=AqpBq[1+(q- 1) Bq(x)- uq)]1-q、 (10)式中,uqis是q-均值,σqis是q-方差,aq是归一化因子,bq是表征分布宽度的参数。这些参数定义如下:uq≡Rx[p(x)]qdxR[p(x)]qdx(11)σq≡R(x)- uq[p(x)]qdxR[p(x)]qdx(12)Aq=Γ[5-第三季度(1)-q) [2]-q1-q] q1-qπ,q<1,√π、 q=1,Γ[q]-1]Γ[3-q2(q)-1) ]qq-1π,1<q<3。(13) Bq=[(3)- q) σq]-1q∈ (-∞, 3). (14) 使用这种广义Box-Muller方法,可以生成任意数量的任意q值的q-高斯分布的数据集。B.偏度和峰度公式(1)和公式(2)分别给出了偏度和峰度的标准定义。改变等式(7)中q的值,可以简单地为不同的q值生成q高斯分布,如图1所示。因此,现在我们有了所有必要的成分来测试偏斜度和峰度之间的关系。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群