全部版块 我的主页
论坛 经济学人 二区 外文文献专区
987 10
2022-05-06
英文标题:
《Estimating nonlinear regression errors without doing regression》
---
作者:
Hong Pi and Carsten Peterson
---
最新提交年份:
2014
---
英文摘要:
  A method for estimating nonlinear regression errors and their distributions without performing regression is presented. Assuming continuity of the modeling function the variance is given in terms of conditional probabilities extracted from the data. For N data points the computational demand is N2. Comparing the predicted residual errors with those derived from a linear model assumption provides a signal for nonlinearity. The method is successfully illustrated with data generated by the Ikeda and Lorenz maps augmented with noise. As a by-product the embedding dimensions of these maps are also extracted.
---
中文摘要:
提出了一种在不进行回归的情况下估计非线性回归误差及其分布的方法。假设建模函数的连续性,方差根据从数据中提取的条件概率给出。对于N个数据点,计算需求为N2。将预测的残差与线性模型假设得出的残差进行比较,可以提供非线性信号。该方法成功地用Ikeda和Lorenz地图生成的数据进行了说明,并添加了噪声。作为副产品,这些地图的嵌入维度也被提取出来。
---
分类信息:

一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--
一级分类:Physics        物理学
二级分类:Chaotic Dynamics        混沌动力学
分类描述:Dynamical systems, chaos, quantum chaos, topological dynamics, cycle expansions, turbulence, propagation
动力系统,混沌,量子混沌,拓扑动力学,循环展开,湍流,传播
--
一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-5-6 15:01:25
LU TP 94-1994年10月19日在不做回归的情况下估计非线性回归误差Hong PiDepartment of Computer Science&Engineering,Oregon研究生院,邮政信箱91000,Portland,Oregon 97291-1000Carsten PetersonDepartment of Theory Physics,Lund,University of Lund,S–olvegatan 14A,S-223 62,Lund,Sweden电子邮件:carsten@thep.lu.seAbstract提出了一种不用进行回归就能估计非线性回归误差及其分布的方法。假设建模函数的连续性,根据从数据中提取的条件概率给出方差。对于N个数据点,计算需求为N。将预测的残余误差与线性模型假设得出的残余误差进行比较,可提供非线性信号。用Ikeda和Lorenz地图生成的数据加上噪声成功地说明了该方法。作为副产品,这些地图的嵌入维度也被提取出来。本说明包含形式主义的推导和C.Peterson《在不进行回归的情况下确定依赖结构和估计非线性回归误差》(国际现代物理杂志6611-616(1995))中所述结果的详细说明。背景大多数物理过程的测量都是有噪声的。这通常是因为所有独立变量都没有被测量。能够直接从数据中估计噪声分布及其方差,而无需对基础信号函数进行任何假设,这是最理想的。在对系统(如人工神经网络)进行任何建模之前,它将提供一个自然的步骤,因为人们可以提前知道系统的最佳性能限制。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-6 15:01:28
此外,过滤数据的方法通常需要事先估计噪声方差。更具体地说,给定一个数据表{(y(i),x(i)),i=1,2,…,N},其中y是依赖变量,d维向量x表示解释变量集,我们的目标是估计^y=F(x)+r(1)的方差r(σr),其中F表示最优模型。估算σ的常规程序是基于模型的。一种方法是将数据输入一个模型,即一个特定的F选择,然后将其偏差解释为噪声。在线性回归模型[1]的特殊情况下,其中F的形式为^y=a+dXk=1akxk,(2)σr=σ显式给出的σr的样本估计-dXk=1akhy,xki(3),其中σ表示y变量方差和尖括号协方差。在本文中,我们设计了一种在建模函数F不被限制为线性时估计最佳σr的方法。这一估计并不依赖于对形式的任何猜测。唯一的假设是F是一致连续的。不严格地说,我们从数据中提取概率密度,并通过减小单元大小对数据进行采样,这样任何噪声点都将显示为不连续。使用连续性要求来建立对XKWA的依赖关系的概念之前在δ-测试方法[2]中探讨过,其中噪声级必须通过假设r的概率分布来估计。与其他方法相比,本工作中的方法新颖独特,参考文献[2],因为不需要假设r的分布——σr直接作为数据密度上的积分计算。事实上,该方法还解决了不同噪声分布的问题。将获得的σr与假设等式中的线性模型提取的值进行比较。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-6 15:01:32
(3) 提供建立非线性的方法。我们以池田[3]和洛伦兹[4]映射这两个噪声增强混沌时间序列的例子来说明该方法的威力。除了查找噪声级,该方法还可用于确定嵌入尺寸。方法目标是推导描述式(1)的最佳模型的r方差的统计估计。所谓最优,我们指的是模型F(等式(1)),使得r和^y不相关,并且r代表相同且独立分布的(i.i.d)噪声。大多数自适应算法(如神经网络模型)都是为了找到这样一个最优函数而设计的。对于一对正实数,我们使用δ检验[2]中定义的条件概率 δ,直接从数据中构造条件概率(| δ) ≡ P(|y|≤  | |x|≤ δ) (4)在哪里|x|≡ maxk | xk- xk |。在极限δ内→ 0,获得一个SP() ≡ limδ→0P(| δ) =P(| F(x)- F(x)+r- r|≤  | |十、- x|→ 0)=Prob(|r|≤ ), (5) 其中函数连续性的性质,F(x)-F(x)→ 0代表x→ x、 被剥削。式(5)建立了残差ρ的概率分布之间的联系(|r |)与数量P之和(), 可直接从数据样本中计算。残余分离的概率密度|r |由ρ给出(|r |)=-dd|r|Prob(|r |>|r |)=“dd”P()#=|r |。(6) 因此|r |可能与P有关() 使用eqs。(5, 6). 用部分积分法得到|r | ni=nZ∞D N-1[1 - P()] (7) 如果r是i.i.d,一个人就有h(r) i=2σr。我们对最优模型剩余方差的估计由σr=Z给出∞D  [1 - P()]. (8) 我们注意到等式(8)中的被积函数抑制了小的 区域此功能在有限的统计情况下是可设计的,几乎没有高分辨率(小分辨率)) 数据点。对于更高的时刻,这种影响甚至更加明显。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-6 15:01:35
除了方差,等式(7)当然也为我们提供了分布的偏度(n=3)。式(6)表明P() 测量噪声分离的累积分布。然后通过P可以识别噪声分布().在某种意义上,等式(7)相当于计算期望值[5],σr=E[(y) ||x|≤ δ]δ→0.(9)如果只想估算σr,那么这可能更容易在数值上实现。到目前为止,我们假设了有限的数据量。一些实施问题与有限的统计情况有关。原木的适当堆放-[2]给出了预测概率和估计其统计误差的对数δ平面。在图1a中,P的典型示例(| δ) 如图所示。固定的, P(| δ) 随着δ的减小,温度上升并达到一个稳定值。P() 由普拉托地区具有可接受统计数据的最大点确定。P() ≡ 最大δ>0P(| δ) (10)等式(8)的积分可以用辛普森法等方法轻松计算。探索池田地图。该系统[3]描述了激光在有损耗有源介质的环形腔中的演化。根据复变量zt=xt+i yt,该图由zt+1=p+B ztexp[iκ]定义-iα1+|zt |]。(11) N=2000个数据点的集合使用等式(11)生成,参数为p=1.0、B=0.9、κ=0.4和α=6.0[10],并且在每次迭代时,将高斯噪声添加到x分量中,作为xt=xt+r,标准偏差σr分别为0.0、0.01、0.02和0.03。现在我们应用我们的方法来估计如果我们对各种解释变量进行回归,误差会是多少。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-6 15:01:43
结果如表1所示,其中显示了σr0。00 0.01 0.02 0.03σr/σ0.0000 0.0208 0.0424 0.5621变量(σr)LR(σr)nl(σr)LR(σr)nl(σr)nl(σr)LR(σr)nl(σr)LR(σr)nl(σr)nl{none}1.000 1.003 1.003 1.003 1.000 1.001{xt-1} 0.997 0.819 0.998 0.792 0.994 0.813 0.642 0.644{xt-1,yt-1} 0.887 0.0055 0.889 0.021 0.884 0.044 0.557 0.563表1:XTE上的回归误差表示为各种解释变量集的分数误差^σR。下标LR和NL分别代表线性回归(等式(3))和我们的方法,允许非线性依赖(等式(8))。由于噪声的影响,不同噪声水平下的噪声分数σr/σ变化很大。需要使用解释变量集{xt-1,yt-1} 为了将剩余方差降低到最佳水平,我们的方法根据噪声分数σr/σ给出了该水平上相当准确的估计。在σr=0.0的情况下,线性回归模型给出的噪声级为0.887,而我们的方法确定的噪声级可忽略不计(0.005)。这表明xton xt的依赖性-1和yt-它主要是非线性的。只要噪声水平适中——在这种情况下低于σr=0.02,这种非线性特征就存在。这与图2中所示一致,图中(d)中的非线性结构在噪声达到σr=0.03时明显消失。接下来我们比较P() 根据标准偏差为σrP的高斯分布的预期数据,使用我们的方法进行计算() =Zρ(|r |)d|r |=erf(2σr),(12)其中erf(.)是错误函数。图3p() 与等式(12)中的高斯解析表达式一起显示。这些线对应于σ参数的最小均方函数。图中的错误。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群