微电网管理者的目标是找到使功能成本j(α)=E“N最小化的最佳(可接受)决策α-1Xn=0(αn)+κ1{Mαn6=Mαn+1}+Q-(Sαn)-#,哪里(.) 是燃油消耗的成本函数:(0)=0,例如。(a) =Kaγ,k>0,γ>0。该随机控制问题符合第1节的三维框架(另见备注2.4),控制α的值为A={0}×[Amin,Amax],Xα=(Cα,Mα,R),噪声εn+1,从状态空间[0,Cmax]×{0,1}×R上的初始值(Cα,Mα,R)=(C,0,R)开始,并具有动力学函数f(X,A,e)=F(x,a):=c+(a- r)+∧ (Cmax- c)- (r)-(a)+∧ ca6=0?R(1- ) + r+e,对于x=(c,m,r)∈ [0,Cmax]×{0,1}×R,a∈ {0}×[Amin,Amax],e∈ R、 运行成本函数f(x,a)=(a) +κ1m=1a=0+Q-S(x,a)-,S(x,a)=r- a+(a- r)+∧ (Cmax- c)- (r)-(a)+∧ c、 零终端成本g=0,控制约束tan(x)=na∈ {0}×[阿明,Amax]:S(x,a)≤ 0o=不适用∈ {0}×[Amin,Amax]:r- c≤ ao。备注3.2基于神经网络的算法通过在运行成本中引入惩罚函数来管理状态/空间约束(见备注2.4):f(x,a)← f(x,a)+L(x,a)L(x,a)=Q+r- c- 一+大Q+比Q大得多-. 这样,基于神经网络的最优控制估计就学会了不做出任何禁止的决策。2控制空间{0}∪【Amin,Amax】是离散空间和连续空间的混合体,这对神经网络算法来说是一个挑战。实际上,我们使用分类和标准DNN的混合物来控制:(p(x;θ),π(x;β)),值在[0,1]×Amin,Amax中,其中p(x;θ)是状态x中的翻转概率,π(x;β)是以概率1开启时的功率- p(x;θ)。