全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1338 40
2022-06-01
英文标题:
《Stochastic Gradient Descent in Continuous Time: A Central Limit Theorem》
---
作者:
Justin Sirignano, Konstantinos Spiliopoulos
---
最新提交年份:
2019
---
英文摘要:
  Stochastic gradient descent in continuous time (SGDCT) provides a computationally efficient method for the statistical learning of continuous-time models, which are widely used in science, engineering, and finance. The SGDCT algorithm follows a (noisy) descent direction along a continuous stream of data. The parameter updates occur in continuous time and satisfy a stochastic differential equation. This paper analyzes the asymptotic convergence rate of the SGDCT algorithm by proving a central limit theorem (CLT) for strongly convex objective functions and, under slightly stronger conditions, for non-convex objective functions as well. An $L^{p}$ convergence rate is also proven for the algorithm in the strongly convex case. The mathematical analysis lies at the intersection of stochastic analysis and statistical learning.
---
中文摘要:
连续时间随机梯度下降(SGDCT)为连续时间模型的统计学习提供了一种计算效率高的方法,广泛应用于科学、工程和金融领域。SGDCT算法沿着连续的数据流遵循(有噪声的)下降方向。参数更新是连续发生的,满足一个随机微分方程。本文通过证明强凸目标函数的中心极限定理(CLT)以及在稍强的条件下非凸目标函数的中心极限定理(CLT),分析了SGDCT算法的渐近收敛速度。在强凸情形下,证明了算法的$L ^{p}$收敛速度。数学分析是随机分析和统计学习的交叉点。
---
分类信息:

一级分类:Mathematics        数学
二级分类:Probability        概率
分类描述:Theory and applications of probability and stochastic processes: e.g. central limit theorems, large deviations, stochastic differential equations, models from statistical mechanics, queuing theory
概率论与随机过程的理论与应用:例如中心极限定理,大偏差,随机微分方程,统计力学模型,排队论
--
一级分类:Mathematics        数学
二级分类:Statistics Theory        统计理论
分类描述:Applied, computational and theoretical statistics: e.g. statistical inference, regression, time series, multivariate analysis, data analysis, Markov chain Monte Carlo, design of experiments, case studies
应用统计、计算统计和理论统计:例如统计推断、回归、时间序列、多元分析、数据分析、马尔可夫链蒙特卡罗、实验设计、案例研究
--
一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--
一级分类:Statistics        统计学
二级分类:Statistics Theory        统计理论
分类描述:stat.TH is an alias for math.ST. Asymptotics, Bayesian Inference, Decision Theory, Estimation, Foundations, Inference, Testing.
Stat.Th是Math.St的别名。渐近,贝叶斯推论,决策理论,估计,基础,推论,检验。
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-1 12:52:43
连续时间的随机梯度下降:中心极限定理Justin Sirignano*和Konstantinos Spiliopoulos+§2019年6月18日摘要连续时间随机梯度下降(SGDCT)为科学、工程和金融领域广泛使用的连续s时间模型的统计学习提供了一种计算高效的方法。SGDCT算法hm沿着连续的数据流遵循(有噪)下降方向。参数更新连续发生,并满足随机微分方程。本文通过证明强凸目标函数的中心极限定理(CLT)以及在稍强的条件下非凸目标函数的中心极限定理(CLT),分析了SGDCT算法的渐近收敛速度。在强凸情况下,证明了该算法的lp收敛速度。数学分析是随机分析和统计学习的交叉点。1引言“连续时间随机梯度下降”(SGDCT)是一种用于连续时间模型的统计学习算法,在科学、工程和金融领域都很常见。给定连续数据流,连续时间随机梯度下降(SGDCT)可以估计随机微分方程(SDE)模型中的未知参数或函数。[14] 分析了SGDCT在金融和引擎方面的大量应用的数值性能。我们证明了SGDCT算法的中心极限定理和Lpconvergencerate;请参阅第1.1节了解我们的结果概述。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-1 12:52:46
分析中出现了一些技术挑战,我们的方法对于研究其他连续时间统计学习方法(例如,[11]、[15]和[6])可能更为广泛有用。对于观测时间较长的大型数据集,连续时间模型统计估计的批量优化可能不切实际。批处理优化对整个观测数据路径的模型错误采取一系列描述步骤。由于每个下降步骤针对的是整个观测数据路径的模型误差,批量优化在很长一段时间内很慢(有时不切实际地慢),或者评估模型的计算成本很高(例如,偏微分方程或微分方程的大系统)。SGDCT提供了一种计算效率高的方法,用于长时间的每IOD统计学习和复杂模型的统计学习。SGDCT沿观测路径连续跟踪(噪声)下降方向;这将导致更大的ra pid收敛。参数在连续时间内在线更新,参数更新θt满足随机微分方程。考虑一个分歧Xt∈ X=Rm:dXt=f*(Xt)dt+σdWt。(1.1)功能f*(x) 未知,σ是常数矩阵。目标是统计估计f的模型f(x,θ)*(x) 从da ta(Xt)t的连续流≥0.重量∈ Rmis a s标准布朗运动和*伊利诺伊大学厄本那-香槟分校工业与系统工程系,Urbana,电子邮件:jasirign@illinois.edu+波士顿大学数学与统计系,波士顿,电子邮件:kspiliop@math.bu.edu部分由美国国家科学基金会(DMS 1550918)资助的K.S.研究§作者感谢普林斯顿大学和科罗拉多大学博尔德分校的研讨会参与者的评论。我们假设σ是已知的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-1 12:52:49
差异术语WT表示系统或环境的任何随机行为。函数f(x,θ)和f*(x) 可能是非凸的。参数θ的连续随机梯度下降更新∈ Rksaties the SDE:dθt=αtθf(Xt,θt)(σσ)-1文本- θf(Xt,θt)(σσ)-1f(Xt,θt)dt, (1.2)其中θf(Xt;θt)是矩阵值,α是学习率。例如,αtcould equalCαC+t。Weassumeθ是根据具有紧凑支持的某个分布初始化的。参数更新(1.2)既可用于基于先前观测数据的统计估计,也可用于在线学习(即数据可用时的实时统计估计)。定义函数g(x,θ)=kf(x,θ)- f*(x) kσσ=Df(x,θ)- f*(x) ,则,σσ-1(f(x,θ)- f*(x) )E,它测量模型f(x,θ)和真实动力学f之间的距离E*(x) 对于一个特定的x,我们假设Xtis是充分遍历的(本文稍后将具体说明),并且它有一些行为良好的π(dx)作为其唯一不变度量。作为一般符号,如果h(x,θ)是一个一般的L(π)函数,那么我们将其在π(dx)上的平均值定义为“h(θ)=ZXh(x,θ)π(dx)。特别是,\'g(θ)=RXg(x,θ)π(dx)是我们分析算法的交感行为时需要考虑的自然目标函数θt。\'g(θ)是f(x,θ)和f之间距离的加权平均值*(x) 。权重由π(dx)给出,这是随着t变大,x趋于的分布。通过在下降方向上移动θ,距离g(x,θ)减小-θg(x,θ),这激发了算法dθt=-αtθg(Xt,θt)dt=αtθf(Xt,θt)(σσ)-1.f*(Xt)- f(Xt,θt)dt。(1.3)f*(x) 未知,因此(1.3)无法在实践中实现。然而,dXt=f*(Xt)dt+σdWtis f的方差估计*(Xt)dt,可用于推导SGDCT算法(1.2)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-1 12:52:52
特别是,很容易看出SGDCT算法(1.2)是下降方向(1.3)加上噪声项:dθt=αtθf(Xt,θt)(σσ)-1文本- θf(Xt,θt)(σσ)-1f(Xt,θt)dt= αtθf(Xt,θt)(σσ)-1.f*(Xt)-f(Xt,θt)dt+αtθf(Xt,θt)(σσ)-1σdWt=-αtθg(Xt,θt)dt+αtθf(Xt,θt)(σσ)-1σdWt。(1.4)下降方向-αt方程(1.4)中的θf(Xt,θt)取决于Xt,因此如果θt朝着固定点前进,则上述公式中的r是不明确的。为了理解θt的行为,将(1.4)分解为几个项是有帮助的:dθt=-αtθ′g(θt)dt |{z}下降项-αtθg(Xt,θt)-θ′g(θt)dt{z}涨落项+αtθf(Xt,θt)(σσ)-1σdWt |{z}噪声项。(1.5)启发式地,如果αt随时间衰减(例如,αt=CαC+t),则下降项-αtθ′g(θt)将主导大t的波动和噪声项。然后,人们可能会发现θtwill收敛到局部最小值g(θ)。作者在[14]中证明了θt收敛到目标函数'g(θ):k的临界点\'g(θt)ka。s→ 0作为t→ ∞. (1.6)然而,[14]留下了一个关于θtsatis是否存在任何渐近收敛率的问题。在本文中,我们证明了一个中心极限定理和一个lp收敛速度,这将在本导言的下一小节中介绍。1.1本文的贡献当g(θ)有一个临界点θ时,我们证明了θtw的中心极限定理*:√t型θt- θ*d→ N(0,‘∑)作为t→ ∞. (1.7)对于目标函数'g(θ)(可能是非凸的)和模型f(x;θ)(θ为线性增长,x为多项式增长)证明了该结果;见定理2.13。此外,当'g(θ)为强凸时,我们给出了一个lp收敛速度:Ekθt- θ*kp公司≤K(C+t)p/2,(1.8)对于p≥ 我们证明了模型f(x,θ)的这个结果,其中θ为二次增长,inx为多项式增长。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-1 12:52:55
此外,在这种强凸情况下,我们证明了中心极限定理也适用于θ为二次增长且x为多项式增长的模型f(x,θ)。强凸x情况下的lp收敛速度和CLT分别在定理2.7和2.8中陈述。定理2.7和2.8没有利用[14]中的结果。作为定理2.13证明的一部分,我们还加强了[14]的c-onvergenc-e结果,它不允许f(x,θ)在θ中增长;见定理2.11。定理2.7,2。8和2.13证明了学习率αt=CαC+t。理论2.7、2.8和2.13的类似结果当然适用于一般类别的学习率αt;见第2.14条。第2节介绍了数学结果的精度陈述和所需的技术假设。此外,作为推论,我们的结果证明了在Xt不依赖的情况下,LPT收敛速度和CLT。也就是说,如果θ*是函数g(θ)的唯一临界点,dθt=αt- g(θt)dt+dWt, (1.9)然后θta。s→ θ*和√t型θt- θ*d→ N(0,‘∑)作为t→ ∞. 此外,如果g(θ)是强凸的,则kθt- θ*kp公司≤K(C+t)p/2。这些数学结果之所以重要,有两个原因。首先,他们为算法的收敛速度建立了理论保证。其次,它们可用于分析不同特征的影响,如学习率αt、噪声水平σ和目标函数g(θ)的形状。我们能够精确地描述存在最优收敛速度的区域,以及描述极限协方差∑。该制度完全取决于学习率的选择。由于XT过程的性质,证明中心极限定理具有挑战性。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群