全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
921 0
2020-11-23
分数指数-基准统计检验的数据集
我在这里描述了一种奇怪的函数类型,该函数虽然不连续,但相对容易使用概率自变量进行集成。我称它为函数g(x)的参数p的 小数部分,并表示为g(x,p)。我们在这里集中于g(x)= exp(x)。它是通过去除g(x)的泰勒级数中的许多项(通常是无限多个)获得的。例如,通过删除所有与奇指数相关的项。基于g(x)= exp(x的示例)在下面提供,并在我上一篇文章的此处进行了详细说明。
对于p = 8/7,p = 4/7和p = 2/7,分别为Exp(x,p)。
更具体地说,参数p的小数部分(其中p是[0,2]中的任何实数)是通过每当以2为底的p的第k个数字去除第k个项(在泰勒级数中)而获得的,等于0。第一项对应于k =0。形式上,例如,如果g(x)= exp(x),则其定义如下:
其中b(k,p)是基数2中p的第k位,p在[0,2]中。此数字等于0或1。例如,如果如第 一个示例中的p = 8/7(本文的第一个公式),则其二进制数字位于位置k = 0、3、6、9 等。 ,都等于1;所有其他数字均为0。对于[0,2]中的任何p,都有b(k,p)的精确公式,请参见此处。确实,我们有:
其中的括号表示整数部分函数。
函数小数部分的奇异性质
在这里,我们换挡,看着克(X,p)作为的函数p,并考虑X作为一个参数。参见图1所示。此功能无处连续。很容易注意到p = 1,p = 3/2或p = 3/4处的不连续性。但是,在大多数情况下,跳跃幅度很小,肉眼无法察觉。然而,有可能相对于p积分函数g(x,p)。例如,
轻松计算这些积分的一种方法是将b(k,p)视为均匀分布在{0,1}上的独立随机变量。实际上,二进制数字在[0,2]中的p上取平均值时,表现出与随机分布相同的行为。对于[0,2]中的所有p都是正确的,但度量0的无限子集除外,其中包括p = 3/4之类的数字。尽管这看起来很直观,但这是由于几乎所有数字都是正常的结果。请在此处查看有关此事实的陈述和证据(该证据于2010年发布,长达12页。)
图1:针对x的4个值计算的分数指数(X轴表示p)
现在,如果相对于x对g(x,p)进行积分,则对于不定积分,结果为G(x,p / 2),其中G(x)是g(x)的任何基元。通过逐项合并泰勒级数项,可以轻松获得结果。
统计假设的基准检验
这是“数据集”的一个很好的例子,可以用来检测不连续点(跳跃),以测试统计测试可以很好地识别它们,以及什么样本大小(exp(p,x)的数量)需要检测每个不连续性。对于给定的x,在[0,2]中的所有p值处都出现不连续性-例如,使用g(x)= exp(x)x = 1/ 2-但对于大多数p值,跳跃是非常大的较小,但具有统计意义。它还涉及高精度计算 要检测这些最小的跳跃,还意味着增加粒度,这意味着检查大量的p以检测一些最小的跳跃。首先,请查看我的Excel电子表格。
这里的一个不错的功能是,您可以无限增加观察次数(p,exp(p,1/2))来评估测试的功效。数据的行为类似于时间序列,而测试相当于检测时间序列中的跳跃。
此处介绍了具有已知几何分布的无限数据集的另一个示例,该示例可用于基准统计测试(间隙测试)。您甚至可以更改数据,以模仿真实的企业数据集,如下所示:
删除一些数据点以模拟丢失的数据并测试插补方法
添加随机噪声以模拟错误,并查看其如何影响结果
添加离群值以研究离群值对统计检验的影响。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群