一种基于大数据和深度挖掘技术的混煤掺烧方法
1.本发明涉及火力发电厂技术领域,特别是一种基于大数据和深度挖掘技术的混煤掺烧方法。
背景技术:
2.随着信息化技术的高速发展,传统燃煤发电企业的数字化建设已被全国各大发电集团提升到了新高度。基于大数据和深度挖掘技术的数字化智能深度掺烧系统在满足机组环保和安全的前提下,不仅可有效提升机组的整体运行水平,还可提高机组的经济效益,推动燃料侧精细化、智能化管理,已经成为燃煤发电企业数字化建设的必由之路,因此具有重要意义。
3.目前,混煤掺烧主要的方法可以分为以下三种:1)数学优化方法;2) 启发式寻优算法和专家决策算法;3)人工智能算法。现有的研究描述动力混合煤煤质特性的数学模型主要分为两种:一种模型认为配煤与单种煤的煤质指标具有线性可加性;另一种则认为配煤的煤质特性与各组成单种煤之间具有复杂的非线性关系。对于部分具有线性可加性的煤质指标,可以采用基于线性加权平均的方法对这些指标进行处理和相应的数学建模。对于不满足上述具有可加性的煤质指标,如灰分和挥发分等指标,可以尝试进行多项式拟合,以得到计算出的煤质指标和测量的结果误差在可接受的范围内。但是对于具有强非线性的煤质指标,基于数学优化的方法得到的结果可能不够理想。为了更好地求解混煤掺烧效果,有专家学者提出了基于启发式寻优算法和专家决策算法以综合考虑混煤后锅炉效率和机组运行安全性、经济性、环保性等方面的要求。但是该方案的缺点在于所需时间长,寻优的鲁棒性不强,并且难以充分利用现有的海量的数据,提高计算的准确度和效率。
技术实现要素:
4.有鉴于此,本发明的目的在于提供一种基于大数据和深度挖掘技术的混煤掺烧方法,利用大数据和深度挖掘技术获取最优的混煤掺烧策略,以降低火力发电厂发电的总成本,减少对环境的影响,提高火力发电厂的经济性、安全性和环保性。
5.为实现上述目的,本发明采用如下技术方案:一种基于大数据和深度挖掘技术的混煤掺烧方法,包括如下步骤:
6.1)混煤掺烧神经网络模型和环境初始化;
7.2)根据环境选择混煤掺烧状态s
t
,并设置不同目标指标参数值;
8.3)基于深度强化学习策略网络生成动作行为,即不同混煤掺烧方案a
t
;
9.4)执行混煤掺烧方案a
t
,并得到下一时刻混煤掺烧状态s
′
t
;
10.5)根据环境的反馈计算强化学习算法的奖励值r
t
;
11.6)将当前步的信息,包括s
t
,a
t
,r
t
,s
′
t
存储于记忆单元d中,并基于随机梯度下降的方法对深度强化学习算法权重进行更新;
12.7)将混煤掺烧状态s
t
更新为下一时刻的混煤掺烧状态s
′
t
;
13.8)判断是否达到预定的时间t
end
,若否,则执行2)至7);若是,则输出深度强化学习算法参数和相应混煤掺烧方案a。
14.在一较佳的实施例中,对混煤掺烧神经网络模型和环境初始化,包括以下步骤:
15.步骤11:神经网络参数初始化,包括神经网络权重初始化和超参数设置,如初始化估值网络和估值网络的参数θ1、θ2以及策略网络的参数初始化目标网络参数:θ'1=θ1,θ'2=θ2,折扣因子γ、批大小b 和记忆单元容量大小d以及最大迭代次数;
16.步骤12:环境初始化,包括基于流体动力学数值模拟的锅炉模型和基于深度学习的火力发电厂数字孪生模型的初始化;在现有火力发电厂大量混煤掺烧配比数据基础上,结合锅炉的流体动力学模型构建多层深度学习模型以预测不同混合掺烧方案下的效果;该深度强化学习算法首先经过一层输入层,其输入特征向量包括从现有数据库中获取的混煤掺烧方案、煤质特性、环境特征和流体动力学模型输出相关指标,然后经过两层全连接层进行特征提取,最后经过含多神经元的输出层,得到混煤掺烧方案下的最终效果和各项指标;该方法构建火力发电厂数字孪生模型,以此计算不同混煤掺烧方案下的奖励函数r
t
。
17.在一较佳的实施例中,所述混煤掺烧状态s
t
如式所示:
18.s
t
={m
t
,{c
i,t
}
i=1...n
,e
t
}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
19.式中,m
t
表示火力发电厂混合掺烧后的预期达到的经济性、安全性和环保性指标,其包括混煤掺烧后锅炉燃烧效率、低位发热值、挥发分、灰熔点和硫分;{c
i,t
}
i=1...n
表示火力发电厂n种煤质特性,其中c
i,t
表示第i种煤的特性,包括低位发热值,挥发分、灰熔点和硫分等;e
t
表示t时刻火力发电厂的环境状态,包括机组功率,主蒸汽压力、主蒸汽温度、再热蒸汽温度、排汽压力、循环水进水温度,给水温度、调节汽门开度,主蒸汽流量、排烟温度、烟气含氧量、给水泵功率、磨煤机功率。
20.在一较佳的实施例中,所述基于深度强化学习策略网络生成动作行为 a
t
包括以下步骤:
21.步骤31:利用策略网络得到在状态s
t
下对应的动作即
[0022][0023]
式中,表示参数为的策略网络,该策略网络采用神经网络,其结构包括一层的输入层,其中状态s
t
中的预期达到指标m
t
、n种煤煤质特性 {c
i,t
}
i=1...n
和环境状态e
t
分别经过一层全连接进行特征提取,其后再将提取的特征聚合在一起;然后连接两层全连接层,最后通过一层全连接层输出火力发电厂n-1种煤的掺烧比例;第n种煤的比例根据前n-1种比例计算;
[0024]
步骤32:为对环境进行探索,在动作的基础上叠加一定噪声得到随机动作,即
[0025][0026]
式中,υ表示噪声衰减因子,训练刚开始时,该值较大;随着迭代的进行,υ逐渐减少,使减少动作因噪声ζ带来的误差;ζ表示噪声,该值服从截断[-c,c]的均值为0,方差为σ的正态分布;clip函数表示将值限制在给定的上下界范围内。
[0027]
在一较佳的实施例中,构建的火力发电厂数字孪生模型和实际运行环境计算基于深度强化学习的混煤掺烧系统奖励函数r
t
,如式所示:
[0028][0029]
式中,f
t
表示火力发电厂的发电量;p
t
表示火力发电厂售电价格;s
′
t
表示火力发电安全性成本;α
′
t
表示安全性成本系数;c
t
表示火力发电厂碳排放量;β
t
表示单位碳排放量价格;k
t
表示火力发电厂耗煤量;c
′
t
表示火力发电厂的单位煤量价格;ω表示不合理动作的惩罚系数;max函数表示取最大值操作;因此,式中的第一项表示火力发电厂的经济性;第二项表示火力发电厂的安全性成本;第三项表示火力发电厂的环保性成本;第四项表示火力发电厂的用煤成本;最后一项表示惩罚成本,即第n种煤比例之和如果超过1.0,此时动作需要受到惩罚。
[0030]
在一较佳的实施例中,所述基于随机梯度下降的方法对深度强化学习算法权重进行更新包括:
[0031]
步骤61:从记忆单元d中随机抽取一定数量的样本sample(s,a,r,s');
[0032]
步骤62:针对每一个样本,采用目标策略网络和目标估值网络对目标动作和目标值进行计算,即
[0033][0034]
式中,s表示采样sample中的当前状态,s'表示采样sample中的下一状态;0≤γ≤1表示折扣因子,其反映未来q值对当前动作的影响,min函数表示取最小值操作;从式中可以得知,在计算时采用两个目标估值网络中的最小值,该策略能够有效解决强化学习算法中q值估计过高的问题;
[0035]
步骤63:通过最小化损失函数对估值网络参数θi进行更新,如下所示:
[0036][0037]
式中,n表示采样的样本数;
[0038]
步骤64:每经过d次迭代,通过梯度下降方法对策略网络参数进行更新,如下所示:
[0039][0040]
步骤65:每经过d步迭代,根据当前强化学习估值网络参数θi和策略网络参数对目标估值网络参数θ'i和目标策略网络参数进行更新,如式所示:
[0041]
θ'i←
λθi+(1-λ)θ'i[0042][0043]
式中,λ表示更新速率因子;当λ越大时,估值网络参数θi与策略网络参数向目标估值网络参数θ'i与目标策略网络参数的传递速度越快。
[0044]
与现有技术相比,本发明具有以下有益效果:首先在现有火力发电厂大量混煤掺
烧配比数据基础上,结合锅炉的流体动力学模型提出基于深度学习的火力发电厂数字孪生模型,以预测不同混合掺烧方案下的效果。其次,提出了一种基于深度强化学习的混煤掺烧方法,以在火力发电厂不同状态下获得最优的掺烧方案,在该过程中根据环境状况构建了基于深度强化学习的混煤掺烧状态s
t
,设计了混煤掺烧动作行为a
t
,并利用上述基于深度学习的火力发电厂数字孪生模型和实际运行环境计算奖励函数r
t
,以此利用大数据和深度挖掘技术获取最优的混煤掺烧策略,以降低火力发电厂发电的总成本,减少对环境的影响,提高火力发电厂的经济性、安全性和环保性。
附图说明
[0045]
图1为本发明优选实施例的流程示意图。
具体实施方式
[0046]
下面结合附图及实施例对本发明做进一步说明。
[0047]
应该指出,以下详细说明都是例示性的,旨在对本技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本技术所属技术领域的普通技术人员通常理解的相同含义。
[0048]
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本技术的示例性实施方式;如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0049]
如图1所示,是本发明一种基于大数据和深度挖掘技术的混煤掺烧方法,包括如下步骤:
[0050]
s1:混煤掺烧神经网络模型和环境初始化;
[0051]
s2:根据环境选择合适的混煤掺烧状态s
t
,并设置不同目标指标参数值;
[0052]
s3:基于深度强化学习策略网络生成动作行为,即不同混煤掺烧方案 a
t
;
[0053]
s4:执行混煤掺烧方案a
t
,并得到下一时刻混煤掺烧状态s'
t
;
[0054]
s5:根据环境的反馈计算强化学习算法的奖励值r
t
;
[0055]
s6:将当前步的信息(s
t
,a
t
,r
t
,s'
t
)存储于记忆单元d中,并基于随机梯度下降的方法对深度强化学习算法权重进行更新;
[0056]
s7:将状态s
t
更新为下一时刻的混煤掺烧状态s'
t
;
[0057]
s8:判断是否达到预定的时间t
end
,若否,则执行(2)~(7);若是,则输出深度强化学习算法参数和相应混煤掺烧方案a。
[0058]
具体的:
[0059]
一、混煤掺烧神经网络模型和环境初始化。主要的步骤包括混煤掺烧神经网络模型和环境初始化。具体包括以下步骤:
[0060]
步骤11:神经网络参数初始化,包括神经网络权重初始化和超参数设置,如初始化估值网络和估值网络的参数θ1、θ2以及策略网络的参数初始化目标网络参数:θ'1=θ1,θ'2=θ2,折扣因子γ、批大小b 和记忆单元容量大小d和最大迭代次数;
[0061]
步骤12:环境初始化,包括基于流体动力学数值模拟的锅炉模型和基于深度学习
的火力发电厂数字孪生模型的初始化。在现有火力发电厂大量混煤掺烧配比数据基础上,结合锅炉的流体动力学模型构建多层深度学习模型以预测不同混合掺烧方案下的效果。该深度强化学习算法首先经过一层输入层,其输入特征向量包括从现有数据库中获取的混煤掺烧方案、煤质特性、环境特征和流体动力学模型输出相关指标,然后经过两层全连接层进行特征提取,最后经过含多神经元的输出层,得到混煤掺烧方案下的最终效果和各项指标。该方法充分利用数据挖掘技术实现从输入到输出的直接映射,以构建火力发电厂数字孪生模型,以此计算不同混煤掺烧方案下的奖励函数r
t
。
[0062]
二、根据环境选择合适的混煤掺烧状态s
t
,并设置不同目标指标参数值。所述混煤掺烧状态s
t
如式所示:
[0063]st
={m
t
,{c
i,t
}
i=1...n
,e
t
}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0064]
式中,m
t
表示火力发电厂混合掺烧后的预期达到的经济性、安全性和环保性指标,其包括混煤掺烧后锅炉燃烧效率、低位发热值、挥发分、灰熔点和硫分等;{c
i,t
}
i=1...n
表示火力发电厂n种煤质特性,其中ci表示第i种煤的特性,包括低位发热值,挥发分、灰熔点和硫分等;e
t
表示t时刻火力发电厂的环境状态,包括机组功率,主蒸汽压力、主蒸汽温度、再热蒸汽温度、排汽压力、循环水进水温度,给水温度、调节汽门开度,主蒸汽流量、排烟温度、烟气含氧量、给水泵功率、磨煤机功率等。
[0065]
三、根据深度强化学习算法生成a
t
,即不同混煤煤种掺烧比例。主要包括以下步骤:
[0066]
步骤31、利用策略网络得到在状态s
t
下对应的动作即
[0067][0068]
式中,表示参数为的策略网络,该策略网络采用神经网络,其结构包括一层的输入层,其中状态s
t
中的预期达到指标m
t
、n种煤煤质特性 {c
i,t
}
i=1...n
和环境状态e
t
分别经过一层全连接进行特征提取,其后再将提取的特征聚合在一起。然后连接两层全连接层,最后通过一层全连接层输出火力发电厂n-1种煤的掺烧比例。第n种煤的比例根据前n-1种比例计算。
[0069]
步骤32、为对环境进行探索,在动作的基础上叠加一定噪声得到随机动作,即
[0070][0071]
式中,υ表示噪声衰减因子,训练刚开始时,该值较大;随着迭代的进行,υ逐渐减少,使减少动作因噪声ζ带来的误差;ζ表示噪声,该值服从截断[-c,c]的均值为0,方差为σ的正态分布;clip函数表示将值限制在给定的上下界范围内。
[0072]
四、执行混煤掺烧方案a
t
,并更新混煤掺烧状态s'
t
。将得到的混煤掺烧方案a
t
应用于步骤1中所述的环境中,并根据环境的反馈更新下一步的混煤掺烧状态s'
t
。
[0073]
五、根据步骤12构建的火力发电厂数字孪生模型和实际运行环境的反馈计算强化学习算法的奖励值r
t
,如式所示:
[0074][0075]
式中,f
t
表示火力发电厂的发电量;p
t
表示火力发电厂售电价格;s
′
t
表示火力发电
安全性成本;α
′
t
表示安全性成本系数;c
t
表示火力发电厂碳排放量;β
t
表示单位碳排放量价格;k
t
表示火力发电厂耗煤量;c
′
t
表示火力发电厂的单位煤量价格;ω表示不合理动作的惩罚系数;max函数表示取最大值操作。因此,式中的第一项表示火力发电厂的经济性;第二项表示火力发电厂的安全性成本;第三项表示火力发电厂的环保性成本;第四项表示火力发电厂的用煤成本;最后一项表示惩罚成本,即第n种煤比例之和如果超过1.0,此时动作需要受到惩罚。
[0076]
六、将当前步的信息(s
t
,a
t
,r
t
,s'
t
)存储于记忆单元d中,并基于随机梯度下降的方法对深度强化学习算法权重进行更新。其步骤如下所示:
[0077]
步骤61:从记忆单元d中随机抽取一定数量的样本sample(s,a,r,s');
[0078]
步骤62:针对每一个样本,采用目标策略网络和目标估值网络对目标动作和目标值进行计算,即
[0079][0080]
式中,s表示采样sample中的当前状态,s'表示采样sample中的下一状态;0≤γ≤1表示折扣因子,其反映未来q值对当前动作的影响,min函数表示取最小值操作。从式中可以得知,在计算时采用两个目标估值网络中的最小值,该策略能够有效解决强化学习算法中q值估计过高的问题。
[0081]
步骤63:通过最小化损失函数对估值网络参数θi进行更新,如下所示:
[0082][0083]
式中,n表示采样的样本数。
[0084]
步骤64:每经过d次迭代,通过梯度下降方法对策略网络参数进行更新,如下所示:
[0085][0086]
步骤65:每经过d步迭代,根据当前强化学习估值网络参数θi和策略网络参数对目标估值网络参数θ'i和目标策略网络参数进行更新,如式所示:
[0087][0088]
式中,λ表示更新速率因子。当λ越大时,估值网络参数θi与策略网络参数向目标估值网络参数θ'i与目标策略网络参数的传递速度越快。
[0089]
七、将状态s
t
更新为状态s'
t
,即对状态s
t
进行更新,以实现下一次的迭代循环。
[0090]
八、判断是否达到预定的时间t
end
。若否,则执行(2)~(7);若是,则输出深度强化学习算法参数和相应混煤掺烧方案a。
[0091]
本发明提出了一种基于深度强化学习的混煤掺烧方法,以在火力发电厂不同状态下获得最优的掺烧方案。根据环境构建了基于深度强化学习的混煤掺烧状态s
t
,设计了混煤掺烧动作行为a
t
,并基于火力发电厂数字孪生模型和实际运行环境计算奖励函数r
t
。其
中,所提出的火力发电厂数字孪生模型,在现有火力发电厂大量混煤掺烧配比数据基础上,结合锅炉的流体动力学模型和深度学习技术进行开发。因此,本文所提出的基于大数据和深度挖掘技术的混煤掺烧方法能够充分利用大数据和深度挖掘技术获取最优的混煤掺烧策略,以降低火力发电厂发电的总成本,减少对环境的影响,提高火力发电厂的经济性、安全性和环保性。
[0092]
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
技术特征:
1.一种基于大数据和深度挖掘技术的混煤掺烧方法,其特征在于,包括如下步骤:1)混煤掺烧神经网络模型和环境初始化;2)根据环境选择混煤掺烧状态s
t
,并设置不同目标指标参数值;3)基于深度强化学习策略网络生成动作行为,即不同混煤掺烧方案a
t
;4)执行混煤掺烧方案a
t
,并得到下一时刻混煤掺烧状态s
′
t
;5)根据环境的反馈计算强化学习算法的奖励值r
t
;6)将当前步的信息,包括s
t
,a
t
,r
t
,s
′
t
存储于记忆单元d中,并基于随机梯度下降的方法对深度强化学习算法权重进行更新;7)将混煤掺烧状态s
t
更新为下一时刻的混煤掺烧状态s
′
t
;8)判断是否达到预定的时间t
end
,若否,则执行2)至7);若是,则输出深度强化学习算法参数和相应混煤掺烧方案a。2.根据权利要求1所述的一种基于大数据和深度挖掘技术的混煤掺烧方法,其特征在于,对混煤掺烧神经网络模型和环境初始化,包括以下步骤:步骤11:神经网络参数初始化,包括神经网络权重初始化和超参数设置,如初始化估值网络和估值网络的参数θ1、θ2以及策略网络的参数初始化目标网络参数:θ
′1=θ1,θ
′2=θ2,折扣因子γ、批大小b和记忆单元容量大小d以及最大迭代次数;步骤12:环境初始化,包括基于流体动力学数值模拟的锅炉模型和基于深度学习的火力发电厂数字孪生模型的初始化;在现有火力发电厂大量混煤掺烧配比数据基础上,结合锅炉的流体动力学模型构建多层深度学习模型以预测不同混合掺烧方案下的效果;该深度强化学习算法首先经过一层输入层,其输入特征向量包括从现有数据库中获取的混煤掺烧方案、煤质特性、环境特征和流体动力学模型输出相关指标,然后经过两层全连接层进行特征提取,最后经过含多神经元的输出层,得到混煤掺烧方案下的最终效果和各项指标;该方法构建火力发电厂数字孪生模型,以此计算不同混煤掺烧方案下的奖励函数r
t
。3.根据权利要求1所述的一种基于大数据和深度挖掘技术的混煤掺烧方法,其特征在于,所述混煤掺烧状态s
t
如式所示:s
t
={m
t
,{c
i,t
}
i=1...n
,e
t
}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)式中,m
t
表示火力发电厂混合掺烧后的预期达到的经济性、安全性和环保性指标,其包括混煤掺烧后锅炉燃烧效率、低位发热值、挥发分、灰熔点和硫分;{c
i,t
}
i=1...n
表示火力发电厂n种煤质特性,其中c
i,t
表示第i种煤的特性,包括低位发热值,挥发分、灰熔点和硫分等;e
t
表示t时刻火力发电厂的环境状态,包括机组功率,主蒸汽压力、主蒸汽温度、再热蒸汽温度、排汽压力、循环水进水温度,给水温度、调节汽门开度,主蒸汽流量、排烟温度、烟气含氧量、给水泵功率、磨煤机功率。4.根据权利要求1所述的一种基于大数据和深度挖掘技术的混煤掺烧方法,其特征在于,所述基于深度强化学习策略网络生成动作行为a
t
包括以下步骤:步骤31:利用策略网络得到在状态s
t
下对应的动作即式中,表示参数为的策略网络,该策略网络采用神经网络,其结构包括一层的输入
层,其中状态s
t
中的预期达到指标m
t
、n种煤煤质特性{c
i,t
}
i=1...n
和环境状态e
t
分别经过一层全连接进行特征提取,其后再将提取的特征聚合在一起;然后连接两层全连接层,最后通过一层全连接层输出火力发电厂n-1种煤的掺烧比例;第n种煤的比例根据前n-1种比例计算;步骤32:为对环境进行探索,在动作的基础上叠加一定噪声得到随机动作,即式中,υ表示噪声衰减因子,训练刚开始时,该值较大;随着迭代的进行,υ逐渐减少,使减少动作因噪声ζ带来的误差;ζ表示噪声,该值服从截断[-c,c]的均值为0,方差为σ的正态分布;clip函数表示将值限制在给定的上下界范围内。5.根据权利要求2所述一种基于大数据和深度挖掘技术的混煤掺烧方法,其特征在于,构建的火力发电厂数字孪生模型和实际运行环境计算基于深度强化学习的混煤掺烧系统奖励函数r
t
,如式所示:式中,f
t
表示火力发电厂的发电量;p
t
表示火力发电厂售电价格;s
′
t
表示火力发电安全性成本;α
′
t
表示安全性成本系数;c
t
表示火力发电厂碳排放量;β
t
表示单位碳排放量价格;k
t
表示火力发电厂耗煤量;c
′
t
表示火力发电厂的单位煤量价格;ω表示不合理动作的惩罚系数;max函数表示取最大值操作;因此,式中的第一项表示火力发电厂的经济性;第二项表示火力发电厂的安全性成本;第三项表示火力发电厂的环保性成本;第四项表示火力发电厂的用煤成本;最后一项表示惩罚成本,即第n种煤比例之和如果超过1.0,此时动作需要受到惩罚。6.根据权利要求2所述一种基于大数据和深度挖掘技术的混煤掺烧方法,其特征在于,所述基于随机梯度下降的方法对深度强化学习算法权重进行更新包括:步骤61:从记忆单元d中随机抽取一定数量的样本sample(s,a,r,s');步骤62:针对每一个样本,采用目标策略网络和目标估值网络对目标动作和目标值进行计算,即式中,s表示采样sample中的当前状态,s'表示采样sample中的下一状态;0≤γ≤1表示折扣因子,其反映未来q值对当前动作的影响,min函数表示取最小值操作;从式中可以得知,在计算时采用两个目标估值网络中的最小值,该策略能够有效解决强化学习算法中q值估计过高的问题;步骤63:通过最小化损失函数对估值网络参数θ
i
进行更新,如下所示:式中,n表示采样的样本数;
步骤64:每经过d次迭代,通过梯度下降方法对策略网络参数进行更新,如下所示:步骤65:每经过d步迭代,根据当前强化学习估值网络参数θ
i
和策略网络参数对目标估值网络参数θ
′
i
和目标策略网络参数进行更新,如式所示:θ
′
i
←
λθ
i
+(1-λ)θ
′
i
式中,λ表示更新速率因子;当λ越大时,估值网络参数θ
i
与策略网络参数向目标估值网络参数θ
′
i
与目标策略网络参数的传递速度越快。
技术总结
本发明提供了一种基于大数据和深度挖掘技术的混煤掺烧方法,包括如下步骤:1)混煤掺烧神经网络模型和环境初始化;2)设置不同目标指标参数值;3)基于深度强化学习策略网络生成动作行为;4)执行混煤掺烧方案a
