本文作者:kaifamei

一种基于部分可观测信息的无人机集多智能体多域抗干扰方法

更新时间:2025-12-17 04:52:10 0条评论

一种基于部分可观测信息的无人机集多智能体多域抗干扰方法



1.本发明属于无线通信技术领域,特别是一种基于部分可观测信息的无人机集多智能体多域抗干扰方法。


背景技术:



2.近年来,随着无线电技术的飞速发展,无人机通信系统中诸多优势的不断凸显,无人机被广泛应用于应急网络,缓解通信系统中的终端需求。无人机集网络抗干扰技术是保障无人机通信免于干扰威胁的重要技术。其中,跳频抗干扰是最常见的抗干扰技术之一。由于传统跳频抗干扰技术无法应对未知高动态复杂干扰环境等问题,基于强化学习的跳频抗干扰技术已成为近年来无人机通信网络跳频抗干扰技术的研究热点。
3.以往大多数研究采用q学习(q-learning,ql)算法,但只适用于低维离散的动作空间。当动作空间较大时,将面临维数灾难的问题。针对上述问题,shangxing wang等人提出了基于深度q网络(deep q-network,dqn)在线学习的信道选择算法,这有效的改善了无人机通信网络在复杂环境下的抗干扰性能。fuqiang yao和luliang jia借助马尔可夫博弈框架 (markov game framework),对无人机集通信系统建立多智能体马尔科夫决策模型 (markov decision process,mdp)模型,降低了应用于实际通信环境时的通信开销。然而,上述抗干扰通信技术并未考虑到通信环境部分可观测问题。


技术实现要素:



4.本发明旨在提供一种基于部分可观测信息的无人机集多智能体多域抗干扰方法,利用深度循环q学习(deep recurrent q-network,drqn)算法,簇头无人机在建立 dec-pomdp模型的基础上,通过采用长短期记忆网络保留历史信息数据训练drqn,实现向真实环境模型的趋近。
5.实现本发明目的的技术解决方案为:基于部分可观测信息的无人机集多智能体多域抗干扰方法,具体步骤为:
6.步骤1:初始化算法参数;
7.步骤2:各簇头无人机通过与环境交互获得其簇内成员无人机上一时隙所选择的信道和发射功率;
8.步骤3:各簇头无人机采用ε-greedy算法为其簇内成员选择当前时隙的信道和发射功率;
9.步骤4:各簇头无人机计算与其簇内成员通信过程所需的能量开销总和,并获得对应环境奖励值;
10.步骤5:将各簇头无人机当前时隙的观测值、动作、奖励和下一时隙的观测值存入各自的经验池中;
11.步骤6:当经验池样本数据足够时,各簇头无人机从各自的经验池中进行随机采
样,得到若干批历史信息数据组成时间序列,将时间序列输入各簇头无人机的价值网络,采用梯度下降法更新价值网络参数;
12.步骤7:每隔一定时隙数,复制价值网络的参数形成新的目标网络;
13.步骤8:重复步骤2至步骤7,直至完成100次数据传输;
14.步骤9:重复步骤8,直至无人机集网络的总奖励值收敛,完成本地训练。
15.本发明与现有技术相比,其显著优点为:(1)提出一种可适用于部分可观测环境的多智能体多域抗干扰框架,通过以实现无人机集网络的长期通信传输能耗最小化为目标,将多域抗干扰决策过程建模为多智能体部分可观测马尔科夫过程,并利用簇头无人机当前时隙的观测值、动作、奖励和下一时隙的观测值作为历史经验,辅助每个无人机集智能体完成各自信道选择和发射功率分配;(2)提出一种基于多智能体深度循环q网络的多域抗干扰算法,通过采用长短期记忆网络保留历史信息数据,再输入到各智能体的深度循环q网络进行动作值函数拟合,并更新各深度循环q网络参数,最终获得可适应未知干扰场景下实现通信传输能耗最小化的无人机信道和发射功率最优决策。
附图说明
16.图1为本发明基于部分可观测信息的无人机集多智能体多域抗干扰方法的流程图。
17.图2为扫频干扰模式下不同算法的学习收敛效果示意图。
18.图3为马尔科夫干扰模式下不同算法的学习收敛效果示意图。
19.图4为扫频干扰模式下不同算法环境奖励的收敛值与信道数目的关系图。
20.图5为马尔科夫干扰模式下不同算法环境奖励的收敛值与信道数目的关系图。
21.图6为扫频干扰模式下不同算法环境奖励的收敛值与干扰机数目的关系图。
22.图7为马尔科夫干扰模式下不同算法环境奖励的收敛值与干扰机数目的关系图。
具体实施方式
23.本发明基于部分可观测信息的无人机集多智能体多域抗干扰方法,具体步骤为:
24.步骤1:初始化算法参数;
25.步骤2:各簇头无人机通过与环境交互获得其簇内成员无人机上一时隙所选择的信道和发射功率;
26.步骤3:各簇头无人机采用ε-greedy算法为其簇内成员选择当前时隙的信道和发射功率;
27.步骤4:各簇头无人机计算与其簇内成员通信过程所需的能量开销总和,并获得对应环境奖励值;
28.步骤5:将各簇头无人机当前时隙的观测值、动作、奖励和下一时隙的观测值存入各自的经验池中;
29.步骤6:当经验池样本数据足够时,各簇头无人机从各自的经验池中进行随机采样,得到若干批历史信息数据组成时间序列,将时间序列输入各簇头无人机的价值网络,采用梯度下降法更新价值网络参数;
30.步骤7:每隔一定时隙数,复制价值网络的参数形成新的目标网络;
31.步骤8:重复步骤2至步骤7,直至完成100次数据传输;
32.步骤9:重复步骤8,直至无人机集网络的总奖励值收敛,完成本地训练。
33.进一步地,步骤1中算法参数包括学习率δ、贪心因子ε、折扣因子γ、经验池大小μ、衰减因子θ、价值网络参数w和目标网络参数w'。
34.进一步地,步骤2中各簇头无人机通过与环境交互获得其簇内成员无人机上一时隙所选择的信道和发射功率,具体如下:
35.本发明中的通信环境尽可能仿照真实环境,而大部分真实环境下,由于噪声与干扰的影响,智能体无法观测到全部状态信息。因此,将无人机抗干扰决策问题建模为分散式部分可观测的马尔科夫决策过程(decentralized partially observable markov decision process, dec-pomdp)。
36.系统模型建模为dec-pomdp《d,s,a,o,r》,其中d为多个智能体集合,s为联合状态集合,a为联合动作集合,o为联合观测集合,r为奖励函数;定义d={1,

,n}为n 个智能体的集合;定义时隙t+1簇头无人机n的当前观测为:联合观测集合其中是时隙t+1簇头无人机n的簇成员i的信道,是时隙t+1 簇头无人机n为其簇成员i选择的发射功率;定义时隙t簇头无人机n的动作为联合观测集合其中是时隙t簇头无人机n的簇成员i跳频到信道是时隙t簇头无人机n为其簇成员i选择的发射功率定义联合状态集合s为全部环境状态信息,联合观测集合o为n个智能体能够观测到的部分信息,因此可以将联合观测集合o看作联合状态集合s的子集;定义是时隙t簇头无人机n的奖励值。
37.进一步地,步骤3中各簇头无人机采用ε-greedy算法为其簇内成员选择当前时隙的信道和发射功率,具体如下:
38.步骤3-1:各簇头无人机的观测值作为其价值网络的输入,每一个动作对应的q值作为其价值网络的输出,其中,时隙t簇头无人机n在观测下执行动作的q值为时隙t+1开始的累计未来奖励值的期望,如下:
[0039][0040]
其中,s
t
为时隙t环境状态信息,为时隙t簇头无人机n采取动作环境状态s
t
由转移到s
t+1
的概率。
[0041]
步骤3-2:根据ε-greedy算法来选择动作,具体方式如下:
[0042][0043]
其中,p为0~1之间的随机数,ε(0<ε<1)为探索概率,为时隙t簇头无人机n 神经网络的隐藏层状态,w为价值网络参数。在此网络中,输出不仅与输入有关,还与时隙 t隐藏层状态有关,用于存储簇头无人机n过去的网络状态,包含历史信息。隐藏层状态
在回合开始时为0,即不包含任何历史信息。随着回合进行,将进行迭代更新,时隙 t网络产生的将作为时隙t+1的隐藏层状态,从而影响时隙t+1价值网络的输出,逐步迭代。
[0044]
该策略以ε的概率在动作空间中随机选择一个动作,避免陷入局部最优。ε为探索概率,1-ε为利用(选择当前最优策略)概率。ε的值越大,利用的概率就越小。算法执行初始阶段,由于状态动作空间较大,探索概率应该取较大的值,随着迭代次数的增加,逐渐接近最优策略,利用概率应该随之增加。
[0045]
进一步地,步骤4中各簇头无人机计算与其簇内成员通信过程所需的能量开销总和,并获得对应环境奖励值,具体如下:
[0046]
记和分别为时隙t簇头无人机n的簇成员i和干扰机j的发射功率,为时隙t簇头无人机m的簇成员k的发射功率(当m=n时,k≠i),gu和gj分别为无人机和干扰机天线增益,为时隙t簇头无人机n与其簇成员i之间或簇头无人机n与干扰机j之间的欧几里得距离,ρ为无人机噪声系数,σ2环境噪声均方值,为时隙t簇头无人机n与其簇成员i之间或簇头无人机n与干扰机j之间的快衰落,b为信道带宽,t为单次通信传输所需时间,s为单次通信传输的数据大小,为加性高斯白噪声信道中时隙t簇头无人机n与其簇成员i无差错传输的最大平均信息速率;rician衰落信道增益用实部建模为均值为0方差为ξ2、虚部建模为均值为0方差为ξ2独立同分布的高斯随机过程,所以记信道快衰落为a为实部,b为虚部;设置时隙t簇头无人机n的能量开销为
[0047][0048][0049][0050][0051]
其中,当簇头无人机n的簇成员i与干扰机j在同一信道时,β=1,否则β=0;当簇头无人机n的簇成员i与簇头无人机m的簇成员k在同一信道时,α=1,否则α=0。时隙t环境总奖励值为
[0052][0053]
能量开销的实际物理意义是簇头无人机n与所有簇成员无人机进行一次数据传输消耗的能量。
[0054]
进一步地,步骤5中将各簇头无人机当前时隙的观测值、动作、奖励和下一时隙的
观测值存入各自的经验池中,具体如下:
[0055]
当簇头无人机n在时隙t按照选择簇成员无人机跳频信道和发射功率后,环境状态由 s
t
跳转至s
t+1
,通过奖励值计算公式计算在s
t
下选择动作得到的奖励和观测将当前时隙t产生的历史经验数据保存至经验池中。
[0056]
进一步地,步骤6中当经验池样本数据足够时,各智能体从各自的经验池中进行随机采样,得到若干批历史信息数据组成时间序列,将时间序列输入各智能体的价值网络,采用梯度下降法更新价值网络参数,具体如下:
[0057]
簇头无人机n的神经网络输入为时隙t的观测值输出为时隙t每个动作对应的q值。为了增强算法稳定性,本发明中采用双网络结构,记w为价值网络参数,w'为目标网络参数,在步骤7中每间隔一定回合更新一次目标网络参数w'。
[0058]
步骤6-1:在各智能体训练价值网络时,先从经验池中随机选取一批历史经验数据,组成若干个时间序列,每个时间序列都是一个完整的通信回合,再在每个序列中随机选择一个时隙,选择连续的若干步作为训练样本。在样本的时隙t,通过价值网络计算时隙t的簇头无人机n的动作q值函数作为估计的q值,目标网络计算时隙t+1簇头无人机n的动作q值函数其中,为时隙t簇头无人机n的观测值、动作与隐藏层状态。用如下公式计算动作q值函数的真实值:
[0059][0060]
步骤6-2:将真实的q值与估计的q值代入如下公式进行计算,即可更新价值网络参数w,逐步减小即
[0061][0062]
通过梯度下降法使得通过价值网络计算出的q值更接近真实q值。在各智能体每次训练神经网络前,需要将隐藏层状态置零,后续若干步的隐藏层状态由网络迭代产生。
[0063]
进一步地,步骤7中每隔一定时隙数,复制价值网络的参数形成新的目标网络,即w

w'。
[0064]
下面结合附图及具体实施例对本发明做进一步详细说明。
[0065]
实施例
[0066]
本实施例设置簇头无人机和干扰机完成100次移动以及信道、发射功率的选择为一个回合,即完成一次通信任务,回合中簇头无人机及干扰机每做出一次移动、信道选择和发射功率称作一个时隙。
[0067]
结合图1,本实施例基于部分可观测信息的无人机集多智能体多域抗干扰方法,具体步骤如下:
[0068]
步骤1:初始化算法参数。
[0069]
算法参数包括学习率δ、贪心因子ε、折扣因子γ、经验池大小μ、衰减因子θ、价值网络参数w和目标网络参数w'。
[0070]
步骤2:各簇头无人机通过与环境交互获得其簇内成员无人机上一时隙所选择的信道和发射功率。具体步骤如下:
[0071]
本发明中的通信环境尽可能仿照真实环境,而大部分真实环境下,由于噪声与干扰的影响,智能体无法观测到全部状态信息。因此,将无人机抗干扰决策问题建模为分散式部分可观测的马尔科夫决策过程(decentralized partially observable markov decision process, dec-pomdp)。
[0072]
系统模型建模为dec-pomdp《d,s,a,o,r》,其中d为多个智能体集合,s为联合状态集合,a为联合动作集合,o为联合观测集合,r为奖励函数;定义d={1,

,n}为n 个智能体的集合;定义时隙t+1簇头无人机n的当前观测为:联合观测集合其中是时隙t+1簇头无人机n的簇成员i的信道,是时隙t+1 簇头无人机n为其簇成员i选择的发射功率;定义时隙t簇头无人机n的动作为联合观测集合其中是时隙t簇头无人机n的簇成员i跳频到信道是时隙t簇头无人机n为其簇成员i选择的发射功率定义联合状态集合s为全部环境状态信息,联合观测集合o为n个智能体能够观测到的部分信息,因此可以将联合观测集合o看作联合状态集合s的子集;定义是时隙t簇头无人机n的奖励值。
[0073]
步骤3:各簇头无人机采用ε-greedy算法为其簇内成员选择当前时隙的信道和发射功率。具体步骤如下:
[0074]
步骤3-1:各簇头无人机的观测值作为其价值网络的输入,每一个动作对应的q值作为其价值网络的输出,其中,时隙t簇头无人机n在观测下执行动作的q值为时隙t+1开始的累计未来奖励值的期望,如下:
[0075][0076]
其中,s
t
为时隙t环境状态信息,为时隙t簇头无人机n采取动作环境状态s
t
由转移到s
t+1
的概率。
[0077]
步骤3-2:根据ε-greedy算法来选择动作,具体方式如下:
[0078][0079]
其中,p为0~1之间的随机数,ε(0<ε<1)为探索概率,为时隙t簇头无人机n 神经网络的隐藏层状态,w为价值网络参数。在此网络中,输出不仅与输入有关,还与时隙 t隐藏层状态有关,用于存储簇头无人机n过去的网络状态,包含历史信息。隐藏层状态在回合开始时为0,即不包含任何历史信息。随着回合进行,将进行迭代更新,时隙 t网络产生的将作为时隙t+1的隐藏层状态,从而影响时隙t+1价值网络的输出,逐步迭代。
[0080]
该策略以ε的概率在动作空间中随机选择一个动作,避免陷入局部最优。ε为探索概率,1-ε为利用(选择当前最优策略)概率。ε的值越大,利用的概率就越小。算法执行初始阶段,由于状态动作空间较大,探索概率应该取较大的值,随着迭代次数的增加,逐渐接近最优策略,利用概率应该随之增加。概率ε更新方式如下:
[0081]
ε=max{0.01,θ
x
}
[0082]
其中x为当前进行的回合数。
[0083]
步骤4:各簇头无人机计算与其簇内成员通信过程所需的能量开销总和,并获得对应环境奖励值。具体步骤如下:
[0084]
记和分别为时隙t簇头无人机n的簇成员i和干扰机j的发射功率,为时隙t簇头无人机m的簇成员k的发射功率(当m=n时,k≠i),gu和gj分别为无人机和干扰机天线增益,为时隙t簇头无人机n与其簇成员i之间或簇头无人机n与干扰机j之间的欧几里得距离,ρ为无人机噪声系数,σ2环境噪声均方值,为时隙t簇头无人机n与其簇成员i之间或簇头无人机n与干扰机j之间的快衰落,b为信道带宽,t为单次通信传输所需时间,s为单次通信传输的数据大小,为加性高斯白噪声信道中时隙t簇头无人机n与其簇成员i无差错传输的最大平均信息速率;rician衰落信道增益用实部建模为均值为0方差为ξ2、虚部建模为均值为0方差为ξ2独立同分布的高斯随机过程,所以记信道快衰落为a为实部,b为虚部;设置时隙t簇头无人机n的能量开销为
[0085][0086][0087][0088][0089]
其中,当簇头无人机n的簇成员i与干扰机j在同一信道时,β=1,否则β=0;当簇头无人机n的簇成员i与簇头无人机m的簇成员k在同一信道时,α=1,否则α=0。时隙t环境总奖励值为
[0090][0091]
能量开销的实际物理意义是簇头无人机n与所有簇成员无人机进行一次数据传输消耗的能量。
[0092]
步骤5:将各簇头无人机当前时隙的观测值、动作、奖励和下一时隙的观测值存入各自的经验池中。具体步骤如下:
[0093]
当簇头无人机n在时隙t按照选择簇成员无人机跳频信道和发射功率后,环境状态由s
t
跳转至s
t+1
,通过奖励值计算公式计算在s
t
下选择动作得到的奖励和观测将当前时隙t产生的历史经验数据保存至经验池中。
[0094]
步骤6:当经验池样本数据足够时,各智能体从各自的经验池中进行随机采样,得
到若干批历史信息数据组成时间序列,将时间序列输入各智能体的价值网络,采用梯度下降法更新价值网络参数。具体步骤如下:
[0095]
簇头无人机n的神经网络由3个神经单元组成,第一个神经单元为长短期记忆单元(longshort-term memory,lstm)。lstm结构是一种特殊的循环神经网络结构,可以利用历史信息对序列数据进行预测和处理。lstm由遗忘门、输入门、输出门组成,遗忘门中的控制参数决定需要被丢弃的历史信息,输入门决定被加入的新信息,输出门决定从本lstm单元输出到下一个单元的数据。
[0096]
遗忘门:
[0097][0098]
输入门:
[0099][0100][0101][0102]
输出门:
[0103][0104]
其中,w
i,f,c,o
和b
i,f,c,o
门的输入权重和偏置,为时隙t lstm单元的输入。
[0105]
lstm结构使用三个门来对输入的数据序列决定保留程度,可以实现通过历史信息对未来进行预测。本发明的抗干扰场景中,各智能体只有奖励信息的交换,所以无法确定其他智能体的动作信息。lstm结构利用历史信息的经验来帮助各智能体预估其他智能体的动作,可以获得更好的无人机集网络通信抗干扰策略。
[0106]
簇头无人机n的神经网络输入为时隙t的观测值输出为时隙t每个动作对应的q值。为了增强算法稳定性,本发明中采用双网络结构,记w为价值网络参数,w'为目标网络参数,在步骤7中每间隔一定回合更新一次目标网络参数w'。
[0107]
步骤6-1:在各智能体训练价值网络时,先从经验池中随机选取一批历史经验数据,组成若干个时间序列,每个时间序列都是一个完整的通信回合,再在每个序列中随机选择一个时隙,选择连续的若干步作为训练样本。在样本的时隙t,通过价值网络计算时隙t的簇头无人机n的动作q值函数作为估计的q值,目标网络计算时隙t+1簇头无人机n的动作q值函数其中,为时隙t簇头无人机n的观测值、动作与隐藏层状态。用如下公式计算动作q值函数的真实值:
[0108][0109]
步骤6-2:将真实的q值与估计的q值代入如下公式进行计算,即可更新价值网络参数w,逐步减小即
[0110][0111]
通过梯度下降法使得通过价值网络计算出的q值更接近真实q值。在各智能体每次训练神经网络前,需要将隐藏层状态置零,后续若干步的隐藏层状态由网络迭代产生。
[0112]
梯度下降过程采用自适应矩估计(adaptive moment estimation,adam)方式。价值网络参数更新过程中,每次迭代只采样一批历史经验数据进行训练,数据集不同,则损失函数不同,采用adam方式能降低收敛到局部最优的概率。adam根据损失函数对每个参数的梯度的一阶矩估计和二阶矩估计动态调整针对于每个参数的学习速率。adam基于梯度下降方法,但每次迭代参数的学习步长都有一个确定的范围,不会因为较大的梯度导致较大的学习步长,参数的值比较稳定。adam算法实现步骤具体如下:
[0113]
假设时隙t时,目标函数对于参数的一阶导数是g
t
,首先计算指数移动均值:
[0114]mt
=λ1m
t-1
+(1-λ1)g
t-1
[0115]
再计算两个偏差校正项:
[0116][0117][0118]
最后得到的梯度更新方法为:
[0119][0120]
最终返回误差函数相关的结果参数算法中m
t
为指数移动均值,ω
t
为平方梯度,而参数λ1、λ2为控制这些移动均值的指数衰减率,η为学习步长,τ为常数,一般为10-8

[0121]
步骤7:每隔一定时隙数,复制价值网络的参数形成新的目标网络;
[0122]
步骤8:重复步骤2至步骤7,直至完成100次数据传输;
[0123]
步骤9:重复步骤8,直至无人机集网络的总奖励值收敛,完成本地训练。
[0124]
本发明采用python对所述方法进行实施。设置信道总数c=4,无人机数量n=9,干扰机数量j=1,时隙t簇头无人机n为其簇成员i选择的发射功率和干扰机j选择的发射功率分别为(簇成员无人机i的发射功率可为27、30、33、36dbm,干扰机j的发射功率通常取值33dbm),设计无人机集完成一次通信任务需要簇头无人机n与簇成员无人机i完成 q次通信,对两种不同干扰模式下的抗干扰系统进行仿真。取学习率δ=0.002,折扣因子γ=0.99,衰减因子θ=0.998,经验池大小μ=200,环境噪声均方值σ2=-114dbm;rician 衰落信道增益用实部建模为均值为ξ2、虚部建模为均值为0方差为ξ2独立同分布的高斯随机过程,所以记信道快衰落为a为实部,b为虚部。
[0125]
在扫频及马尔科夫干扰模式下的学习收敛效果分别如图2~图3所示。扫频设置为同时干扰1个频道,以1mhz为扫频步长。马尔科夫干扰模式下设置干扰状态共计4个,每个干扰模式在仿真开始时随机生成,任意时隙干扰模式的转换遵循如下状态转移矩阵:
[0126]
[0127]
图2与图3分别为扫频干扰与马尔科夫干扰两种干扰模式下,信道与功率随机选择方案、基于dqn以及基于drqn的信道与功率选择方案中奖励值的收敛情况。从图中可以看出,基于drqn方案相比dqn方案具有更高的收敛奖励值,且收敛结果更稳定,这是由于drqn 中存在长短期记忆网络,各智能体可以根据历史经验获得其他智能体的动作变化规律以及环境变化规律等隐藏信息,网络输出不只由自身观测情况所决定;而dqn的输出完全由自身的观测情况决定,一旦环境或其他智能体决策规律发生改变,将会造成整个网络的波动。对比图2与图3,三种信道与功率选择的方案奖励值收敛情况大致相同,在马尔可夫干扰条件下,基于drqn方案相比基于dqn方案性能提升34.6%,相比基于随机方案提升54.5%;在扫频干扰条件下,基于drqn方案相比基于dqn方案性能提升38.4%,相比基于随机方案提升56%。
[0128]
图4与图5分别为扫频干扰与马尔科夫干扰两种干扰模式下,三种信道与功率选择方案的平均奖励收敛值与信道数目的关系。当信道数目增多时,三种方案的平均奖励收敛值均有所提高,这是由于信道数目增多后,同频干扰发生的情况减少,降低了无人机通信的能量开销。基于drqn的方案相比其他方案平均奖励收敛值变化较小,说明其对这一环境条件并不敏感。
[0129]
图6与图7分别为扫频干扰与马尔科夫干扰两种干扰模式下,三种信道与功率选择方案的奖励收敛值与干扰机数目的关系。从图中可以看出,在两种干扰模式下,随着干扰机数目的增多,环境不断恶化,三种方案下的平均奖励收敛值都有下降趋势,但是基于drqn方案的平均奖励收敛值更稳定,下降幅度不超过10%,因此drqn算法具有较好的稳健性。

技术特征:


1.基于部分可观测信息的无人机集多智能体多域抗干扰方法,其特征体现在下列具体的步骤中:步骤1:初始化算法参数;步骤2:各簇头无人机通过与环境交互获得其簇内成员无人机上一时隙所选择的信道和发射功率;步骤3:各簇头无人机采用ε-greedy算法为其簇内成员选择当前时隙的信道和发射功率;步骤4:各簇头无人机计算与其簇内成员通信过程所需的能量开销总和,并获得对应环境奖励值;步骤5:将各簇头无人机当前时隙的观测值、动作、奖励和下一时隙的观测值存入各自的经验池中;步骤6:当经验池样本数据足够时,各簇头无人机从各自的经验池中进行随机采样,得到若干批历史信息数据组成时间序列,将时间序列输入各簇头无人机的价值网络,采用梯度下降法更新价值网络参数;步骤7:每隔一定时隙数,复制价值网络的参数形成新的目标网络;步骤8:重复步骤2至步骤7,直至完成100次数据传输;步骤9:重复步骤8,直至无人机集网络的总奖励值收敛,完成本地训练。2.根据权利要求1所述的基于部分可观测信息的无人机集多智能体多域抗干扰方法,其特征在于,步骤1中算法参数包括学习率δ、贪心因子ε、折扣因子γ、经验池大小μ、衰减因子θ、价值网络参数w和目标网络参数w'。3.根据权利要求1所述的基于部分可观测信息的无人机集多智能体多域抗干扰方法,其特征在于,步骤2中各簇头无人机通过与环境交互获得其簇内成员无人机上一时隙所选择的信道和发射功率,具体如下:本发明中的通信环境尽可能仿照真实环境,而大部分真实环境下,由于噪声与干扰的影响,智能体无法观测到全部状态信息。因此,将无人机抗干扰决策问题建模为分散式部分可观测的马尔科夫决策过程(decentralized partially observable markov decision process,dec-pomdp)。系统模型建模为dec-pomdp<d,s,a,o,r>,其中d为多个智能体集合,s为联合状态集合,a为联合动作集合,o为联合观测集合,r为奖励函数;定义d={1,

,n}为n个智能体的集合;定义时隙t+1簇头无人机n的当前观测为:联合观测集合其中是时隙t+1簇头无人机n的簇成员i的信道,是时隙t+1簇头无人机n为其簇成员i选择的发射功率;定义时隙t簇头无人机n的动作为联合观测集合其中是时隙t簇头无人机n的簇成员i跳频到信道是时隙t簇头无人机n为其簇成员i选择的发射功率定义联合状态集合s为全部环境状态信息,联合观测集合o为n个智能体能够观测到的部分信息,因此可以将联合观测集合o看作联合状态集合s的子集;定义是时隙t簇头无人机n的奖励值。4.根据权利要求1所述的基于部分可观测信息的无人机集多智能体多域抗干扰方
法,其特征在于,步骤3中各簇头无人机采用ε-greedy算法为其簇内成员选择当前时隙的信道和发射功率,具体如下:步骤3-1:各簇头无人机的观测值作为其价值网络的输入,每一个动作对应的q值作为其价值网络的输出,其中,时隙t簇头无人机n在观测下执行动作的q值为时隙t+1开始的累计未来奖励值的期望,如下:其中,s
t
为时隙t环境状态信息,为时隙t簇头无人机n采取动作环境状态s
t
由转移到s
t+1
的概率。步骤3-2:根据ε-greedy算法来选择动作,具体方式如下:其中,p为0~1之间的随机数,ε(0<ε<1)为探索概率,为时隙t簇头无人机n神经网络的隐藏层状态,w为价值网络参数。在此网络中,输出不仅与输入有关,还与时隙t隐藏层状态有关,用于存储簇头无人机n过去的网络状态,包含历史信息。隐藏层状态在回合开始时为0,即不包含任何历史信息。随着回合进行,将进行迭代更新,时隙t网络产生的将作为时隙t+1的隐藏层状态,从而影响时隙t+1价值网络的输出,逐步迭代。该策略以ε的概率在动作空间中随机选择一个动作,避免陷入局部最优。ε为探索概率,1-ε为利用(选择当前最优策略)概率。ε的值越大,利用的概率就越小。算法执行初始阶段,由于状态动作空间较大,探索概率应该取较大的值,随着迭代次数的增加,逐渐接近最优策略,利用概率应该随之增加。5.根据权利要求1所述的基于部分可观测信息的无人机集多智能体多域抗干扰方法,其特征在于,步骤4中各簇头无人机计算与其簇内成员通信过程所需的能量开销总和,并获得对应环境奖励值,具体如下:记和分别为时隙t簇头无人机n的簇成员i和干扰机j的发射功率,为时隙t簇头无人机m的簇成员k的发射功率(当m=n时,k≠i),g
u
和g
j
分别为无人机和干扰机天线增益,为时隙t簇头无人机n与其簇成员i之间或簇头无人机n与干扰机j之间的欧几里得距离,ρ为无人机噪声系数,σ2环境噪声均方值,为时隙t簇头无人机n与其簇成员i之间或簇头无人机n与干扰机j之间的快衰落,b为信道带宽,t为单次通信传输所需时间,s为单次通信传输的数据大小,为加性高斯白噪声信道中时隙t簇头无人机n与其簇成员i无差错传输的最大平均信息速率;rician衰落信道增益用实部建模为均值为0方差为ξ2、虚部建模为均值为0方差为ξ2独立同分布的高斯随机过程,所以记信道快衰落为a为实部,b为虚部;设置时隙t簇头无人机n的能量开销为
其中,当簇头无人机n的簇成员i与干扰机j在同一信道时,β=1,否则β=0;当簇头无人机n的簇成员i与簇头无人机m的簇成员k在同一信道时,α=1,否则α=0。时隙t环境总奖励值为能量开销的实际物理意义是簇头无人机n与所有簇成员无人机进行一次数据传输消耗的能量。6.根据权利要求1所述的基于部分可观测信息的无人机集多智能体多域抗干扰方法,其特征在于,步骤5中将各簇头无人机当前时隙的观测值、动作、奖励和下一时隙的观测值存入各自的经验池中,具体如下:当簇头无人机n在时隙t按照选择簇成员无人机跳频信道和发射功率后,环境状态由s
t
跳转至s
t+1
,通过奖励值计算公式计算在s
t
下选择动作得到的奖励和观测将当前时隙t产生的历史经验数据保存至经验池中。7.根据权利要求1所述的基于部分可观测信息的无人机集多智能体多域抗干扰方法,其特征在于,步骤6中当经验池样本数据足够时,各智能体从各自的经验池中进行随机采样,得到若干批历史信息数据组成时间序列,将时间序列输入各智能体的价值网络,采用梯度下降法更新价值网络参数,具体如下:簇头无人机n的神经网络输入为时隙t的观测值输出为时隙t每个动作对应的q值。为了增强算法稳定性,本发明中采用双网络结构,记w为价值网络参数,w'为目标网络参数,在步骤7中每间隔一定回合更新一次目标网络参数w'。步骤6-1:在各智能体训练价值网络时,先从经验池中随机选取一批历史经验数据,组成若干个时间序列,每个时间序列都是一个完整的通信回合,再在每个序列中随机选择一个时隙,选择连续的若干步作为训练样本。在样本的时隙t,通过价值网络计算时隙t的簇头无人机n的动作q值函数作为估计的q值,目标网络计算时隙t+1簇头无人机n的动作q值函数其中,为时隙t簇头无人机n的观测值、动作与隐藏层状态。用如下公式计算动作q值函数的真实值:
步骤6-2:将真实的q值与估计的q值代入如下公式进行计算,即可更新价值网络参数w,逐步减小即通过梯度下降法使得通过价值网络计算出的q值更接近真实q值。在各智能体每次训练神经网络前,需要将隐藏层状态置零,后续若干步的隐藏层状态由网络迭代产生。8.根据权利要求1所述的基于部分可观测信息的无人机集多智能体多域抗干扰方法,其特征在于,步骤7中每隔一定时隙数,复制价值网络的参数形成新的目标网络,即w

w'。

技术总结


本发明公开了一种基于部分可观测信息的无人机集多智能体多域抗干扰方法,该方法利用各智能体的部分观测环境信息,通过长短期记忆网络保留历史经验数据,输入各智能体的深度循环Q网络进行动作值函数拟合,采用ε-greedy算法选择最大输出Q值对应的信道和功率,再经过不断独立训练各智能体的深度循环Q网络,更新Q值分布,最终学习到可适应未知干扰场景下实现通信传输能耗最小化的无人机信道和发射功率最优决策。本发明针对无人机集网络分别处于扫频干扰和马尔科夫干扰两种场景下,利用部分可观测信息的历史经验数据,从频谱域和功率域实现有效多智能体抗干扰通信;相较于基于多智能体深度Q学习的对比方案,所提方案能够在环境信息部分可观测的情况下更高效地降低无人机集网络的长期通信传输能耗。无人机集网络的长期通信传输能耗。无人机集网络的长期通信传输能耗。


技术研发人员:

刘梦泽 单雯 卢其然 林艳 张一晋 邹骏 吴志娟

受保护的技术使用者:

南京理工大学

技术研发日:

2022.10.14

技术公布日:

2022/12/9


文章投稿或转载声明

本文链接:http://www.wtabcd.cn/zhuanli/patent-1-76769-0.html

来源:专利查询检索下载-实用文体写作网版权所有,转载请保留出处。本站文章发布于 2023-01-25 08:31:37

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论