电子通信装置的制造及其应用技术1.本发明涉及资源分配技术领域,尤其涉及一种基于强化学习的空间飞行信息系统资源动态分配方法。背景技术:2.近年来,随着互联网和移动互联网的发展成熟,社交和娱乐领域的线上和虚拟应用场景越来越丰富。2020年以后,人们的生活越来越依赖线上交流,推动了数字孪生、人工智能、大数据、虚拟现实等相关技术快速发展,催生了面向未来综合虚实融合的“元宇宙”概念的发展演进。另一方面,国家通过产业和工业数字化转型战略,对国民经济的重要行业进行数字化升级改造,在数字孪生技术赋能工业的基础上,未来将面向资源使用要求更复杂和严苛的工业生产制造领域,打造工业和产业元宇宙,使得无论在技术迭代、还是综合管理方面,都将向着更高效、更丰富的方面发展。3.因此,数字资源组成的虚拟世界将在未来几十年内迅速扩张,各行业各类应用的数字孪生体将不断产生,而基于计算机、网络和通信技术的数字资源是有限的,这就对数字资源的综合高效利用提出了更高要求。4.同时,各行业各类应用的数字孪生体共享资源的情况下,在不产生相互干扰的前提下进行资源复用是高效利用资源的一种解决办法。而且各种应用的资源需求动态变化,采取智能化的资源分配策略是提高资源利用率的可行途径。5.目前的空间飞行信息系统映射得到的数字孪生体,资源分配大多采用静态(频率或功率等)资源复用方法,相邻的服务区使用不同的资源向其覆盖区域内的用户提供服务,采用相同资源的覆盖范围尽可能相互远离,从而抑制所复用的相同资源之间的干扰;但是随着系统用户越来越多,多个业务服务提供节点所覆盖区域的重叠可能性将越来越高,导致同类资源复用所产生的干扰越来越严重,尽管极端情况下可以关闭若干服务区,但在重合区域逐步增大的时候资源使用之间的干扰也是需要解决的重要问题。另外,不同类型系统数字孪生体之间的覆盖范围重合时,可能对已有系统的资源使用造成干扰。6.当前应对资源干扰的方法大多集中在应对频率资源复用方面,即同频干扰。以下分别给出应对同频干扰的当前已有方案:7.一种是增强小区间干扰协调。针对同频干扰,可以考虑使用eicic(增强小区间干扰协调)技术来抑制干扰。具体来说就是下行方向使用absf(almostblanksubframe)技术,禁止多个相互干扰的资源使用区域同时发送下行业务数据,这是一种类似于时分复用的思路;上行方向上给相互干扰的不同服务区域下不同用户的上行业务数据分配互不重叠的频域资源,这是一种频分复用的思路。这种方法存在两个问题。一是调度复杂,复杂网络数字孪生体要对多层次时变网络进行建模仿真,同频干扰情况随时间不断变化,相互干扰的同频小区数目不断变化,这种条件下eicic技术的应用有待研究;另外由于时间上交错发送,不同覆盖区域间需要维持时域同步。8.另一种是基于相关研究,表明多载波扩频技术和传统扩频技术一样能对抗窄带干扰,并且在对抗部分宽带干扰方面也更有效。当多载波扩频技术用于多址传输时,系统对用户数的变化不像传统cdma技术那样敏感,这在业务需求不定的环境中尤为有利。ofdm技术本身就有对抗多径衰落的能力,与扩频技术相结合后,系统性能优于采用rake接收的传统cdma技术,实现也更简单。多载波扩频技术有多种实现方式,最适合的方式是mc-cdma技术。但是这种方法的问题在于,在具体设计中,当重叠的资源使用区域越来越多时,该方法得到的扩频增益可能无法维持正确的传输性能,为此应增大扩频增益,需要设计更低带宽配置下的帧结构同时还需避免引入过大的开销,这就进一步增加了系统设计复杂度。另外,扩频码的选择也是一个重要的问题,如果选用完全正交的扩频码,如沃尔什码,则要求不同的服务区域间维持时间同步关系以保证正交性;而如果选用不完全正交的扩频码,则需仔细研究不同服务区域间相互引入的干扰对系统性能的影响。9.由此可以看到,以上静态资源分配方法灵活性较差、设计复杂,对复杂多变的数字孪生体系统资源分配适应性不强。技术实现要素:10.鉴于上述的分析,本发明实施例旨在提供一种基于强化学习的空间飞行信息系统资源动态分配方法,用以解决现有空间飞行信息系统中服务区域之间业务分布不均、资源需求不同等问题。11.本发明公开了一种基于强化学习的空间飞行信息系统资源动态分配方法,包括:12.将所述空间飞行信息系统映射成数字孪生体系统,获取所述数字孪生体系统中的所有可用资源、服务区域及用户终端;13.基于所述数字孪生体系统,构建以最小化用户终端阻塞率为目标函数、以资源分配合理化为约束条件的动态资源分配优化模型;14.当接收到用户终端的业务请求时,基于强化学习方式求解动态资源分配优化模型,得到空间飞行信息系统的动态资源分配策略。15.在上述方案的基础上,本发明还做出了如下改进:16.进一步,所述目标函数为:17.max r=rmax*(1-ublock/uall)ꢀꢀ(1)18.其中,r表示目标函数,rmax表示优化阻塞率奖赏系数;ublock表示所述数字孪生体系统中处于阻塞状态的用户终端的总数,uall表示所述数字孪生体系统中发出业务请求的用户终端的总数。19.进一步,所述约束条件为:[0020][0021]其中,pn=[pn,1,pn,2,...,pn,m,...,pn,m]t,pn,m表示可用资源m分配给服务区域n的功率;所述数字孪生体系统的最大功率记为ptot,各服务区域的最大功率记为pb;h表示哈密顿转置,服务区域集合b={n|n=1,2,...,n},n表示服务区域的总数;可用资源集合c={m|m=1,2,…,m},m表示可用资源的总数;[0022]cu,m表示可用资源m分配给用户终端u的容量,cth表示容量阈值;用二元组集合u={u|u=(n,k),n∈b,k∈z}来唯一标识每个用户终端,用户终端u表示接入第n个服务区域的用户终端的id为k;用户终端id集合z={k|k=1,2,...,k};[0023]di,j表示服务区域i和服务区域j之间的距离,ld表示最小资源复用距离;wi,m、wj,m分别表示服务区域i、j对可用资源m的占用状态。[0024]进一步,[0025]cu,m=csubc·log2(1+sinru,m)ꢀꢀ(3)[0026]其中,csubc表示每个可用资源的容量;sinru,m表示用户终端u接收可用资源m时的有用无用信号比:[0027][0028]其中,pb,m表示可用资源m分配给服务区域b的功率,表示用户终端u的信道噪声;[0029]资源提供方与用户终端之间的信道传输损耗矩阵e={eu,n|u∈u,u=(n,k),n∈b};其中,eu,n表示用户终端u接入服务区域n传输可用资源的信道传输损耗,eu,b表示用户终端u接入服务区域b传输可用资源的信道传输损耗。[0030]进一步,[0031]e=o·gu·gbꢀꢀ(5)[0032]其中,ο表示自由空间引起的路径损耗矩阵;gb表示资源提供方的功率增益矩阵;gu表示用户终端的功率增益。[0033]进一步,o=diag{o1,o2,...,ou,...,ou},ou表示用户终端u由于自由空间引起的路径损耗;[0034]gb={gu,n|u∈u,u=(n,k),n∈b},gu,n表示资源提供方提供给接入服务区域n的用户终端u的功率增益;[0035]gu=diag{g1,g2,...,gu,...,gu},gu表示接入服务区域n的用户终端u的功率增益。[0036]进一步,当接收到用户终端的业务请求时,基于强化学习方式求解动态资源分配优化模型,包括:[0037]步骤s31:参数初始化;初始化学习速率α、折扣因子γ、优化周期t,[0038]初始化探索概率ε=εinit及,令t=0;初始化s0={wad(0),pad(0)};wad(t)表示pad(t)时刻的可用资源的资源已占用状态,pad(t)分别表示功率已分配信息;若wad(0)中含0元素,执行步骤s32;[0039]步骤s32:更新探索概率ε=max(ε-εgap,εf);[0040]令状态st={wad(t),pad(t)},根据状态st计算可行的动作集合a(st);[0041]以ε概率随机选择动作at∈a(st),[0042]否则,选择at=argmaxaq(st,at);[0043]执行动作at,更新环境至t+1时刻的状态st={wad(t+1),pad(t+1)},并获取t时刻的奖励r(t)=rmax*[1-ublock(t)/uall(t)];[0044]更新q值,q(st+1,at+1)←q(st,at)+α[rt+γmaxq(st,at)-q(st,at)];[0045]判断wad(t+1)中是否不含0元素,[0046]若是,跳转到步骤s33;[0047]若否,判断t=t是否成立,[0048]若成立,跳转到步骤s33;[0049]若不成立,t=t+1,跳转到步骤s32;[0050]步骤s33:将argmaxaq(s,a)时对应的动作作为最优资源分配策略。[0051]进一步,所述用户终端的业务请求包括:用户终端的资源占用请求,用户终端所处的服务区域的功率分配请求;[0052]wre表示用户终端的资源占用请求对应的资源占用状态矩阵;pre表示用户终端所处的服务区域的功率分配请求对应的功率分配矩阵;[0053]wad(t)用资源占用状态矩阵w的形式表示;pad(t)用功率分配矩阵p的形式表示;[0054]资源占用状态矩阵w=[w1,w2,...,wn,...,wn],其中,wn=[wn,1,wn,2,...,wn,m,...,wn,m]t;wn,m表示服务区域n对可用资源m的占用状态,[0055]功率分配矩阵p=[p1,p2,...,pn,...,pn]。[0056]进一步,wn,m=1表示服务区域n占用可用资源m,wn,m=0表示服务区域n未占用可用资源m。[0057]进一步,所述根据状态st计算可行的动作集合a(st),执行:[0058]根据t时刻的wad(t)和pad(t),确定未占用资源对应的资源占用状态矩阵wno(t)和未分配功率对应的功率分配矩阵pno(t);[0059]从wno(t)中筛选出同时满足wre和约束条件d4的所有可行的资源分配方式,其中,可行的资源分配方式以资源占用状态矩阵的形式表示;[0060]从pno(t)中筛选出同时满足pre和约束条件d1-d3的所有可行的功率分配方式,其中,可行的功率分配方式以功率分配矩阵的形式表示;[0061]将每一种可行的资源分配方式和功率分配方式组合成一种可行的动作,汇总所有可行的动作,形成可行的动作集合a(st)。[0062]与现有技术相比,本发明至少可实现如下有益效果之一:[0063]本发明提供的基于强化学习的空间飞行信息系统资源动态分配方法,针对数字孪生体系统中服务区域之间业务分布不均、资源需求不同等问题,设计了一种动态资源分配方式。所有的资源均可以被各个服务区域内的用户所使用,根据各个区域的业务请求用户数进行资源的分配,相比于固定分配方式,具有较高的资源利用率优势。在此基础上,资源分配算法有效结合用户的位置、传输增益等信息,充分考虑不同用户分配相同资源可能造成的干扰,可以有效地避免资源使用干扰。另一方面,强化学习通过环境的反馈而提升自身决策能力。因此通过智能体与当前资源使用方的环境进行交互,获得状态信息,根据业务请求实现数字孪生体系统的资源动态分配,提高系统服务性能。[0064]具体实施过程中,通过动态智能学习和决策,提升了数字孪生体面向资源分配的决策能力。本发明提出了通过智能体和环境之间交互迭代,反馈状态、动作和决策等信息的系统框架,并基于动态资源分配的目标和约束进行分配流程和步骤。本发明通过分析系统业务场景下动态资源分配问题,建立了最大化资源使用率的最优化问题;给出了智能化模型的在解决资源分配问题上的有效性,并给出了动态资源分配算法详细设计。仿真表明,本发明提出的资源分配方法可以降低数字孪生体系统业务阻塞率,提升系统资源利用率。[0065]本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。附图说明[0066]附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。[0067]图1为本发明实施例提供的基于强化学习的数字孪生体资源分配方法的流程图;[0068]图2为本发明实施例提供的本发明资源动态分配方法和现有技术中的资源固定分配方法比较示意图。具体实施方式[0069]下面结合附图来具体描述本发明的优选实施例,其中,附图构成本技术一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。[0070]本发明的一个具体实施例,公开了一种基于强化学习的空间飞行信息系统资源动态分配方法,流程图如图1所示,包括以下步骤:[0071]步骤s1:将空间飞行信息系统映射成数字孪生体系统,获取数字孪生体系统中的所有可用资源、服务区域及用户终端;[0072]空间飞行信息系统是由分布在空间中的多个飞行器作为资源提供方、以分布在多个服务区域内的地面用户终端作为资源使用方所形成的信息系统。具体地,资源提供方用于提供可用资源,在本实施例中,可用资源主要包括功率资源,即,以服务区域为基本单位的发送信号功率资源的分配情况。服务区域为面向用户终端实现某类业务功能的一个或多个、使用不同可用资源的区域。用户终端为分布在不同服务区域范围内的、通过各自服务区域内所分配的可用资源接入资源提供方、并使用资源提供方提供的相应可用资源的业务请求方。[0073]将空间飞行信息系统映射成数字孪生体系统过程中,将空间飞行信息系统中的可用资源映射成数字孪生体系统中的可用资源;将空间飞行信息系统中的服务区域映射成数字孪生体系统中的服务区域;将空间飞行信息系统中的用户终端映射成数字孪生体系统中的用户终端,从而形成数字孪生体系统。[0074]步骤s2:基于数字孪生体系统,构建以最小化用户终端阻塞率为目标函数、以资源分配合理化为约束条件的动态资源分配优化模型;[0075]具体地,在本实施例中,按照以下方式构建数字孪生体系统的动态资源分配优化模型;[0076]数字孪生体系统中包括n个服务区域,并由服务区域集合b={n|n=1,2,...,n}表示。数字孪生体系统中的可用资源集合c={m|m=1,2,...,m},m表示可用资源的总数。其中,可用资源互相之间互不重叠,而且不会产生干扰,每个可用资源的容量相等,每个可用资源的容量均可表示为csubc=ctotcm,ctotc表示数字孪生体系统中所有可用资源的总容量。[0077]用户终端分布在不同的服务区域范围内,根据用户终端的资源使用需求,在各自的服务区域内进行资源接入,每个用户终端与接入的资源有唯一对应关系。假设数字孪生体系统中包括k个用户终端,并由用户终端id集合z={k|k=1,2,...,k}表示,k表示用户终端的id。可以用二元组集合u={u|u=(n,k),n∈b,k∈z}来唯一标识每个用户终端,用户终端u表示接入第n个服务区域的用户终端的id为k。[0078]模型构建过程中,重点关注资源是否被占用,以及,各个服务区域的功率分配情况。据此,设计如下相关参数:[0079]服务区域n的资源占用状态向量记为wn=[wn,1,wn,2,…,wn,m,…,wn,m]t,其中,wn,m表示服务区域n对可用资源m的占用状态,wn,m=1表示服务区域n占用可用资源m,wn,m=0表示服务区域n未占用可用资源m。此时,数字孪生体系统中所有服务区域的资源占用向量构成了数字孪生体系统的资源占用状态矩阵w=[w1,w2,…,wn,…,wn]。并定义以服务区域为基本单位的功率分配矩阵p=[p1,p2,…,pn,...,pn],其中,pn=[pn,1,pn,2,...,pn,m,...,pn,m]t,pn,m表示可用资源m分配给服务区域n的功率。数字孪生体系统的最大功率记为ptot,各服务区域的最大功率记为pb,pb=ptot/n。[0080]在本实施例中,资源提供方与用户终端(资源接收方)之间的信道传输损耗矩阵e={eu,n|u∈u,u=(n,k),n∈b},其中,eu,n表示用户终端u接入服务区域n传输可用资源的信道传输损耗。实际应用过程中,可以通过以下公式计算得到ε:[0081]e=o·gu·gbꢀꢀ(1)[0082]其中,ο表示自由空间(如大气衰减等)引起的路径损耗矩阵;具体地,o=diag{o1,o2,...,ou,...,ou},ou表示用户终端u由于自由空间引起的路径损耗;[0083]gb表示资源提供方的功率增益矩阵;gb={gu,n|u∈u,u=(n,k),n∈b},gu,n表示资源提供方提供给接入服务区域n的用户终端u的功率增益;[0084]gu表示用户终端的功率增益;gu=diag{g1,g2,...,gu,...,gu},gu表示接入服务区域n的用户终端u的功率增益。[0085]此时,用户终端u接收可用资源m时的有用无用信号比sinru,m可由下式所示:[0086][0087]其中,pb,m表示可用资源m分配给服务区域b的功率,即为在同一个资源上其他服务区域对服务区域n的干扰,eu,b表示用户终端u接入服务区域b传输可用资源的信道传输损耗,表示用户终端u的信道噪声(即非自由空间产生的噪声)。进一步,可以通过香农公式计算得到可用资源m分配给用户终端u的容量cu,m,如式(3)所示:[0088]cu,m=csubc·log2(1+sinru,m)ꢀꢀ(3)[0089]为了确保能够满足用户终端的服务使用质量要求,应该至少保证所分配的资源下的容量不低于容量阈值cth,cth的取值与传输业务类型以及接收端的性能有关,可以根据实际应用场景具体设置。当cu,m≥cth(阈值大小需根据具体实际业务需求进行设计)时,可以满足用户终端的服务质量要求。[0090]在本实施例中,以最小化用户终端阻塞率为目标函数、以资源分配合理化为约束条件的动态资源分配优化模型如公式(4)和(5)所示:[0091]max r=rmax*(1-ublock/uall)ꢀꢀ(4)[0092][0093]公式(4)为以最小化用户终端阻塞率为目标的目标函数;其中,r表示目标函数;rmax表示优化阻塞率奖赏系数,rmax为一标量正值;ublock表示数字孪生体系统中处于阻塞状态的用户终端的总数,uall表示数字孪生体系统中发出业务请求的用户终端的总数,ublock/uall表示用户终端阻塞率。[0094]公式(5)为约束条件;其中,约束条件d1表示资源分配方案应该满足分配功率不应超过资源提供方的总功率,h表示哈密顿转置。约束条件d2表示每个服务区域的功率不应超过每服务区域的最大传输功率。约束条件d3表示当前资源分配方案不会影响已有业务的服务质量,也避免了干扰问题的影响。约束条件d4为干扰的限制条件,wi,m、wj,m分别表示服务区域i、j对可用资源m的占用状态;di,j表示服务区域i和服务区域j之间的距离;即,在最小资源复用距离ld内,同一个可用资源只允许一个服务区域使用。[0095]在确定用户终端业务请求的所需资源需求后,可以通过求解动态资源分配优化模型中的约束条件,选取得到候选资源分配方式集合和候选功率分配方式集合。[0096]步骤s3:当接收到用户终端的业务请求时,基于强化学习方式求解动态资源分配优化模型,得到空间飞行信息系统的动态资源分配策略。[0097]在本实施例中,通过以下方式建立强化学习模型:将资源提供方作为智能体,将资源使用情况作为环境,将可用资源的分配情况作为动作。智能体通过观察环境st决定执行动作at,at影响环境使其变为st+1,同时智能体得到环境反馈的即时收益rt。具体地,对强化学习模型中的主要内容做以下陈述:[0098](1)状态[0099]状态s是对环境形式化的抽象,同时也是确定所执行动作的依据。在本实施例中,t时刻的状态st={wad(t),pad(t)},st∈s;其中,wad(t)表示t时刻的可用资源的资源已占用状态,用资源占用状态矩阵w的形式表示;pad(t)表示t时刻的功率已分配信息,用功率分配矩阵p的形式表示。[0100]当某时刻的状态wad(t)中不含0元素时,表示所有资源均被占用,到达终止状态,即对于所有的用户终端而言,当前没有可用的资源。[0101](2)动作[0102]动作是智能体对环境的输出,就本实施例而言,是指将可用资源及其功率分配给发起业务请求的用户终端。具体实施过程中,根据t时刻的用户终端的业务请求、以及智能体所处的状态,根据约束条件,确定t时刻可行的动作集合a(st)。然后,从可行的动作集合a(st)中选择具有最大q值的动作去执行a(t)。[0103]at={(n,m)|n,m∈a(st),n∈b,m∈m}[0104]该动作at表示:在状态st下的可行的动作集合a(st)中,将可用资源m以功率pn,m提供给服务区域n。通过在不同状态下、根据q学习中的策略选取不同动作,将智能体中的可用资源分配给各个服务区域的用户终端。[0105]用户终端的业务请求包括:用户终端的资源占用请求,用户终端所处的服务区域的功率分配请求;其中,wre表示用户终端的资源占用请求对应的资源占用状态矩阵;pre表示用户终端所处的服务区域的功率分配请求对应的功率分配矩阵。[0106]具体地,在本实施例中,通过以下方式确定t时刻可行的动作集合a(st):[0107]根据t时刻的wad(t)和pad(t),确定未占用资源对应的资源占用状态矩阵wno(t)和未分配功率对应的功率分配矩阵pno(t);[0108]从wno(t)中筛选出同时满足wre和约束条件d4的所有可行的资源分配方式,其中,可行的资源分配方式以资源占用状态矩阵的形式表示;[0109]从pno(t)中筛选出同时满足pre和约束条件d1-d3的所有可行的功率分配方式,其中,可行的功率分配方式以功率分配矩阵的形式表示;[0110]将每一种可行的资源分配方式和功率分配方式组合成一种可行的动作,汇总所有可行的动作,形成可行的动作集合a(st)。[0111](3)奖励[0112]奖励对应动态资源分配优化模型的目标函数。[0113]奖励是智能体与环境交互过程中来自环境的反馈,是对在确定状态下去相应动作后的评价,该值设计的合理与否直接决定了智能体长期收益的大小,也就是动态资源分配问题所的解性能的优劣。在动态资源分配问题中,优化目标是使系统的效用达到最大,以阻塞率为例,即优化目标是系统的阻塞用户数量最小。[0114]r=rmax*(1-ublock/uall)[0115]可以看出,数字孪生体系统中阻塞用户数越少,获得的奖励越多,则数字孪生体系统的总体效用性能也越高。因为智能体更加注重到达最终状态时的奖励,故可以将在状态转移过程的立即奖赏设置为0。[0116]基于前述环境、状态、动作和奖励的定义,提出基于强化学习的动态资源分配算法如下:[0117]每当接收到用户终端的业务请求时,执行:[0118]步骤s31:参数初始化;初始化学习速率α、折扣因子γ、优化周期t,[0119]初始化探索概率ε=εinit及,令t=0;初始化s0={wad(0),pad(0)};若wad(0)中含0元素,执行步骤s32;[0120]步骤s32:更新探索概率ε=max(ε-εgap,εf);[0121]令状态st={wad(t),pad(t)},根据状态st计算可行的动作集合a(st);[0122]以ε概率随机选择动作at∈a(st),[0123]否则,选择at=argmaxaq(st,at);[0124]执行动作at,更新环境至t+1时刻的状态st={wad(t+1),pad(t+1)},并获取t时刻的奖励rt;r(t)=rmax*[1-ublock(t)/uall(t)];[0125]更新q值,q(st+1,at+1)←q(st,at)+α[rt+γmaxq(st,at)-q(st,at)];[0126]判断wad(t+1)中是否不含0元素,[0127]若是,跳转到步骤s33;[0128]若否,判断t=t是否成立,[0129]若成立,跳转到步骤s33;[0130]若不成立,t=t+1,跳转到步骤s32;[0131]步骤s33:将argmaxaq(s,a)时对应的动作作为最优资源分配策略。[0132]上述算法流程中的动作选择策略采用ε贪婪策略,即以概率ε∈[0,1]随机进行动作选择,否则选择具有最大q值的动作并执行。例如,探索概率ε为30%,通过计算机程序随机数生成机制,决定当前循环轮次是随机选择动作(“探索”)还是选择最大q值的动作。理论上无限多次仿真后,选择“探索”的循环轮次的个数占总循环次数占比趋近于30%。“以ε概率随机选择动作at∈a(st),否则,选择at=argmaxaq(st,at);”,两种方式之间的关系是:随机选择动作(“探索”)是从动作空间中随机选择一个执行,其q值不一定最大。而“否则”后面的选择是具有最大q值的,但正如后面所说,这样可能会“陷入局部最优”。[0133]因此,在本实施例中,选用ε贪婪策略,旨在对探索和利用进行折中,利用指的是基于根据当前已获得的信息进行决策,如此可以充分发挥历史经验的信息;探索指的是抛弃当前已获得的信息,随机尝试一种新的方法,如此可避免陷入局部最优,探寻可行的全局最优方案。训练过程中探索概率ε应该逐渐变小,本方案中采用线性下降准则,衰减因子记为εgap,以从初始的探索概率εinit衰减到最终探索概率εf。[0134]实施例2[0135]为了进一步说明本发明的有益效果,以下进一步对本发明提出的资源分配系统和方法进行仿真计算。[0136]选取不同业务分布下作为仿真场景,并与固定的资源分配方法(固定)进行了对比。固定资源分配算法将可用的资源固定划分为几个子集,每个服务区域从划分子集中选择一个集合作为可用的资源分配集。[0137]表1资源分配算法仿真参数[0138][0139]仿真中采用的用户终端业务到达模型服从参数为λ的泊松分布。业务持续时长服从参数为μ的负指数分布,[0140]图2给出了两种分配方式在不同业务到达率λ下的系统阻塞率性能。业务持续时间恒定为μ=3分钟。如图2所示,在同等业务到达率情况下,本发明所提出的基于强化学习的资源分配算法与固定分配算法相比可以达到较低的阻塞率。[0141]结果表明,阻塞率随着业务到达率的增加而变大,这主要是因为随着业务的增加,由于可用的信道数是固定的,会有更多的业务因无法获得服务而被阻塞。相同业务到达率下,本发明的方法相比固定资源分配方法可实现更低阻塞率。如在业务到达率λ=80时,固定和动态两种方法的阻塞率分别为0.31和0.09。同时,在系统阻塞率性能为0.10时,固定和动态两种方法的可承载业务量分别为λ=43和λ=82,也就是说,本发明所提出的算法相比于固定分配方法,可提升一倍的负载承载量。[0142]本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。[0143]以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
一种基于强化学习的空间飞行信息系统资源动态分配方法与流程 专利技术说明
作者:admin
2023-06-29 21:36:05
914
关键词:
电子通信装置的制造及其应用技术
专利技术