使用h(y)Y、 ν=RY | h(Y)|ν(Y)dy,其中ν(Y)是区域Y上定义的密度。结合上述三项,我们可以得到与训练神经网络相关的成本函数:L(θ)=(t+L)f(t,x;θ)[0,T]×Ohm,ν|{z}微分算子+f(t,x;θ)- g(t,x)[0,T]×Ohm,ν|{z}边界条件+f(0,x;θ)- u(x)Ohm,ν|{z}初始条件下一步是使用随机梯度下降最小化损失泛函。更具体地说,我们采用图5.1中定义的算法。图5.1中的描述应被视为一个总体轮廓,因为算法应根据所考虑的PDE的特殊性质进行修改。1、初始化参数集θ和学习率αn.2。从域的内部和时间/空间边界生成随机样本,即从[0,T]×生成(tn,xn)Ohm 根据νo从[0,T]×生成(τn,zn)Ohm 根据νo生成wnfromOhm, 根据ν3。计算当前小批量的损失函数(随机采样点sn={(tn,xn),(τn,zn),wn}):o计算L(θn;tn,xn)=((t+L)f(θn;tn,xn))o计算L(θn;τn,zn)=(f(τn,zn)- g(τn,zn))o计算L(θn;wn)=(f(0,wn)- u(wn))o计算L(θn;sn)=L(θn;tn,xn)+L(θn;τn,zn)+L(θn;zn)4。在随机点SN处采取下降步骤,基于Adam的学习率:θn+1=θn- αnθL(θn;sn)5。重复步骤(2)-(4),直到kθn+1- θnk很小。图5.1:深伽辽金法(DGM)算法。需要注意的是,这里描述的问题严格来说是一个优化问题。这与典型的机器学习应用不同,在机器学习应用中,我们关注的是欠匹配、过匹配和泛化问题。通常,得出损失函数等于零的参数集是不可取的,因为这表明存在某种形式的过度拟合。