发布信息

一种基于特征工程的强化学习通信抗干扰方法与流程

作者:admin      2022-08-31 15:32:41     262



电子通信装置的制造及其应用技术1.本发明涉及一种基于特征工程的强化学习通信抗干扰方法,属于强化学习和智能通信的交叉领域。背景技术:2.通信抗干扰技术是保护我方通信安全的关键因素,影响实时指挥信息的传输效果和战场态势的构建。现阶段基于强化学习的抗干扰方法的缺点主要体现在计算量大的问题,在《pattern-aware intelligent anti-jamming communication:a sequential deep reinforcement learning approach》一文中,首先利用深度学习对当前干扰机的干扰样式进行识别,然后再分别针对不同的干扰样式训练不同的抗干扰策略。该方法将抗干扰系统分为两部分,串联将导致决策时间长。在《anti-jamming communications using spectrum waterfall:a deep reinforcement learning approach》一文中,采用卷积神经网络(convolutional neural networks,cnn)和循环神经网络(recurrent neural network,rnn)组合的方法将导致系统结构复杂且rnn训练时间长。公开号为cn113938239a的专利《提高无线通信抗干扰能力的方法、通信设备及存储介质》采用人工设计抗干扰规则的方法,该方法虽然提出了完善并且结合硬件设计成体系的,但是抗干扰效果的增量性差,应用需要大量的人力参与。公开号为cn113472423a的专利《一种基于零和博弈论的卫星通信抗干扰方法》建立以通信容量和误码率为优化目标的零和博弈模型,生成以功率等参数和波形变换的联合策略。该方法提前对对抗模型进行静态建模,但是没有考虑前后时序行为关联对于策略的影响。技术实现要素:3.有鉴于此,本发明提供一种基于特征工程的强化学习通信抗干扰方法,该方法可适用于通信组网中对抗恶意干扰,为抗干扰策略生成提供新思路和新方法,提升通信网络的信息传输效果,为指挥控制态势的构建提供可靠的技术支撑。4.本发明采用的技术方案为:5.一种基于特征工程的强化学习通信抗干扰方法,包括以下步骤:6.步骤1:在时域和频域上构建通信干扰环境;7.步骤2:基于干扰环境和特征工程构建强化学习环境;8.步骤3:基于强化学习环境构建强化学习通信抗干扰方法模型;9.步骤4:基于干扰环境对强化学习通信抗干扰方法模型进行验证。10.进一步的,步骤1的具体方式为:11.步骤1-1:在t时刻,整个通信频段上的通信信道数为n,将t时刻整个通信频段用矩阵c表示为:12.ct=[ct,1ct,2…ct,n][0013]其中,当信道中没有通信信号和干扰信号时,ct,n=0;当信道中没有通信信号,只有干扰信号时,ct,n=-1;当信道中只有通信信号,没有干扰信号时,ct,n=1;当信道中既有通信信号又有干扰信号时,ct,n=2;[0014]步骤1-2:将通信干扰环境中整个t时间内的通信频段的时频信息οt表示为:[0015][0016]步骤1-3:博弈环境中干扰机采用随机干扰样式,即以t为周期随机切换干扰样式;干扰机采用的干扰样式为固定频干扰和扫频干扰。[0017]进一步的,步骤2的具体方式为:[0018]步骤2-1:构建通信抗干扰环境奖赏函数:[0019][0020]其中,at,j表示t时刻干扰机选择的信道,at,c表示t时刻通信设备选择的信道,λ为折扣系数,取0.6;[0021]步骤2-2:构建通信抗干扰环境状态空间,将t时刻的状态表示为:[0022]st=[ct,ct-1]。[0023]进一步的,步骤3的具体方式为:[0024]步骤3-1:构建状态-动作价值表,价值表用矩阵q表示如下:[0025][0026]其中,矩阵q的维度为m×n,其行数m为状态的种类,其列数n为信道数,其值q(s1′,a1)表示在状态种类为s1′的情况下,选择a1可获得的价值,即:[0027]q(s′m,an)=q(s′m,an)[0028]步骤3-2:构建贪心算法,用于选择当前状态st下的最优动作值at;在训练过程中,最优动作的选择公式如下:[0029][0030]其中,random(n)表示在[1,n]的闭区间内以均匀分布的等概率选择一个整数;ε表示在[0,1]区间内的随机数;η表示门限;argmaxq(st)表示在价值矩阵中,选择使st状态下价值最大的动作;[0031]在验真过程中,最优动作的选择公式如下:[0032]at=argmaxq(st)[0033]步骤3-3:在博弈过程中完成状态-动作价值表的更新;在完成一次博弈过程后,由当前状态st、选择动作at、奖励rt和博弈结果st+1组成马尔科夫链,即《st,at,rt,st+1>,矩阵q由如下公式进行更新:[0034][0035]其中,γ为奖励衰减,α是用于控制价值更新速率的衰减系数。[0036]进一步的,步骤4的具体方式为:[0037]步骤4-1:进行训练,每轮步长为k,奖励函数收敛后执行步骤4-2;[0038]步骤4-2:对抗干扰效果进行验证,每轮步长为k′,当平均抗干扰成功率大于90%时,认为抗干扰成功,完成基于特征工程的强化学习通信抗干扰;其中,平均抗干扰成功率为at,j≠at,c出现的概率。[0039]本发明的有益效果在于:[0040]1、本发明通过特征工程的方法,结合包括干扰样式信息的历史频域构建状态空间,并考虑信道切换引起的信道特征改变对信号调制解调的影响,基于此设计了奖赏函数。[0041]2、本发明结合强化学习模型产生抗干扰策略,可适用于通信组网中对抗恶意干扰。[0042]3、本发明为抗干扰策略生成提供新思路和新方法,可提升通信网络的信息传输效果,从而为指挥控制态势的构建提供可靠的技术支撑。附图说明[0043]图1为本发明实施例方法的流程图。[0044]图2为对抗定频干扰和扫频干扰随机切换的效果图。[0045]图3为本发明实施例中的抗干扰成功率图。具体实施方式[0046]下面结合附图和具体实施方式对本发明做进一步说明。[0047]一种基于特征工程的强化学习通信抗干扰方法,其整体流程如图1所示,具体包括如下步骤:[0048]步骤1:在时域和频域上构建通信干扰环境。[0049]步骤1-1:在t时刻整个通信频段上的通信信道数为n,其中n=10,故在t时刻整个通信频段可以用矩阵c表示为:[0050]ct=[ct,1ct,2…ct,n][0051]其中,当信道中没有通信信号和干扰信号时,ct,n=0;当信道中没有通信信号和只有干扰信号时,ct,n=-1;当信道中只有通信信号和没有干扰信号时,ct,n=1;当信道中有通信信号和干扰信号时,ct,n=2。[0052]步骤1-2:通信干扰环境中整个t时间内的通信频段的时频信息οt可以表示为:[0053][0054]步骤1-3:博弈环境中干扰机采用随机干扰样式,即以t为周期随机切换干扰样式,t=10。干扰机采用的干扰样式为固定频干扰和扫频干扰。[0055]步骤2:基于干扰环境和特征工程构建强化学习环境。[0056]步骤2-1:构建通信抗干扰环境奖赏函数。该函数需要从两方面进行考虑:一方面从保证有效通信的角度而言,通信信号所在信道内不能出现干扰信号;另一方面,由于不同通信信道间的信道特征不同,需要考虑当前通信设备所选信道与前置时刻所选信道的关系。故通信抗干扰环境奖赏函数可以表示为:[0057][0058]其中,at,j表示t时刻干扰机选择的信道,at,c表示t时刻通信设备选择的信道,λ为折扣系数。[0059]步骤2-2:构建通信抗干扰环境状态空间。为了能够有效感知当前干扰机采用的干扰样式,并且拟合奖赏函数,t时刻的状态可以表示为:[0060]st=[ct,ct-1][0061]步骤3:基于强化学习环境构建强化学习通信抗干扰方法模型。[0062]步骤3-1:构建状态-动作价值表,价值表用矩阵q表示,如下所示:[0063][0064]矩阵q的维度为m×n,其行数m为状态的种类,由机器自动生成并记录,其列数n为信道数,其值q(s1′,a1)表示在状态种类为s1′的情况下,选择a1可获得的价值,即:[0065]q(s′m,an)=q(s′m,an)[0066]步骤3-2:构建贪心算法用于选择当前状态st下的最优动作值at。当在训练过程时,最优动作的选择公式如下:[0067][0068]其中,random(n)表示[1,n]的闭区间内以均匀分布的等概率选择一个整数;ε表示在[0,1]区间内的随机数;η表示门限,取0.9;argmaxq(st)表示在价值矩阵中,选择使st状态下价值最大的动作。[0069]当在验真过程中时,最优动作的选择公式如下:[0070]at=argmaxq(st)[0071]步骤3-3:在博弈过程中完成状态-动作价值表的更新。在完成一次博弈过程后,由当前状态st、选择动作at、奖励rt和博弈结果st+1组成马尔科夫链,即《st,at,rt,st+1>。q表可以由如下公式进行更新:[0072][0073]其中,γ为用于控制奖赏的奖励衰减,此处可取0.9;α是用于控制价值更新速率的衰减系数,此处可取0.9。[0074]步骤4:基于干扰环境对强化学习通信抗干扰方法模型进行验证。[0075]步骤4-1:进行1000轮训练,每轮步长为k,共5000步,奖励函数收敛后执行步骤4-2,对抗干扰效果进行验证。[0076]步骤4-2:进行100轮测试,每轮步长为k′,共5000步,当平均抗干扰成功率大于90%时,即at,j≠at,c出现的概率大于90%时,实现基于特征工程的强化学习通信抗干扰。[0077]抗干扰效果如图2和图3所示。在图2中可以看出,通信信号(白色)能够有效规避干扰机产生的定频干扰和扫频干扰(黑色)。在图3中可以看出,抗干扰成功率稳定在99.1%以上,实验验证了抗干扰方法的有效性。[0078]总之,本发明方法结构清晰,可解释性强,能够准确地规避智能干扰机的随机切换干扰,有效规避周期性随机干扰样式切换干扰,具有广泛的工业实用性。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部